在跨端自动化领域,一场由创业团队引领的技术革新正在悄然展开。张志勇和单文榜,两位来自硬件行业的资深工程师,凭借自研的Agent ZeroFlow,在安卓设备、Chrome浏览器及PC桌面上实现了突破性的多模态操控能力。这项技术让智能体能够像真人一样观察屏幕、执行点击、滑动和输入操作,完成复杂的跨平台任务。
当前市场上的主流方案各存局限。豆包手机通过与手机厂商深度合作获取高权限,却因此引发应用厂商的强烈抵制;智谱AutoGLM采用adb协议和远程虚拟机模式,但用户信任成本居高不下。ZeroFlow另辟蹊径,选择基于Android无障碍服务构建核心架构。这项为视障用户设计的系统功能,赋予智能体读取屏幕元素和模拟人类操作的能力,理论上形成了无法被应用封禁的技术路径。
技术落地的复杂程度远超想象。国内网页普遍设置的反自动化机制构成首要挑战——视觉元素与代码结构的错位设计,使得传统代码解析方式难以奏效。张志勇团队发现,多模态视觉理解恰好能破解这种"视觉迷宫",这也是某些大模型能解读截图却无法解析链接的根源所在。另一个工程难题在于优化截图策略,既要减少广告弹窗等干扰因素,又要控制模型推理成本。单文榜透露,团队通过动态区域截取和轻量化模型部署,在保证准确率的同时将Token消耗降低30%。
安全机制构建体现着创业团队的独特思考。针对OpenClaw等开源项目暴露的命令注入风险,ZeroFlow采用双层防护体系:沙箱环境隔离用户敏感数据,小模型实时监测并脱敏处理交互信息。这种设计既防止了主机被控风险,又确保云端文件无法被逆向解析。在用户体验层面,系统将部署流程简化为浏览器注册即用,彻底消除传统智能体复杂的配置门槛。
技术演进路径折射出创业团队的战略抉择。从最初为提升工程师效率开发的编程智能体,到如今面向全行业的通用Agent,ZeroFlow的进化轨迹清晰可见。第一代产品通过上下文感知和代码补全功能,将研发效率提升数倍;当观察到OpenClaw引发的行业变革时,团队意识到三年积累已形成可复制的方法论。这种从垂直场景到通用平台的跨越,使财务分析、运营流程等知识工作领域都成为潜在应用场景。
选择独立创业而非依托大厂平台,源于团队对技术扩散速度的判断。"群体协作能拓展边界,但个体决策更适应快速迭代的市场环境。"张志勇如此解释。这种判断已获得资本认可——依零科技近期完成近千万元天使轮融资,资金将用于产品优化和市场拓展。在跨端自动化这场竞赛中,这个创业团队正以独特的路径证明:技术突破不仅需要创新勇气,更需要对行业痛点的深刻洞察。






