当 OpenClaw(小龙虾)带着 “全自动办公” 的 Demo 刷屏时,很多人已经忘了曾经昙花一现的 “豆包手机”—— 字节那场声势浩大的 “AI 手机革命”,最终悄无声息地消失在舆论里。这不是巧合:小龙虾和豆包手机,本质是同一条技术路径上的两个 “炫技玩具”,从诞生起就注定是昙花一现,根本无法成为真正的生产力工具。它们用看似惊艳的操作,掩盖了底层无法解决的致命缺陷,和多年前那些尝试自动化的前辈们一样,最终都会撞在平台生态的铜墙铁壁上。
豆包手机和小龙虾,一个在手机端,一个在 PC 端,底层逻辑却完全一致:用系统级 / 开发者级的 “后门能力”,模拟人类操作来实现跨应用 / 跨页面自动化,本质是把 “脚本” 包装成 “AI Agent”。
字节的豆包手机,核心是滥用 Android 系统最高级别的ACCESS_FINE_EVENTS等高危权限,绕过 APP 官方接口,直接模拟用户点击、跳转、输入:
- 它本质是个 “可编程遥控器”,所谓 “本地 Agent” 只是云端大模型的傀儡,所有理解、决策都依赖云端算力;
- 它只能拿到 APP 界面展示的文字 / 图片,完全触不到底层原始数据(比如微信聊天记录存在云端,手机端只能看到文字,无法调用数据库做实时匹配);
- 这种权限滥用从一开始就站在生态对立面 —— 微信、支付宝、银行 APP 会直接检测操作轨迹和设备指纹,一旦发现异常就闪退或封号。
小龙虾的核心是依赖 Chrome 的CDP(Chrome DevTools Protocol)调试接口,通过 Playwright 等工具读取 DOM 结构、模拟点击 / 输入:
- 它同样绕过网页前端的合规操作入口,用开发者调试工具做批量操作,本质是个 “网页版按键精灵”;
- 所谓 “自主找工具” 只是匹配 GitHub 项目 README 的固定命令模板,能力完全来自 ClawHub 上人工预写的脚本市场,没有任何自主创新;
- 它也只能拿到网页渲染后的界面数据,无法触及后端数据库,协同能力被锁死在 “看得见摸不着” 的层面。
两者的本质没有区别:都是用本该给开发者用的调试 / 高危能力,去做普通用户的自动化操作,从根上就违背了平台的安全与生态规则。
不管 Demo 看起来多炫,小龙虾和豆包手机都绕不开以下四个无法解决的致命问题,这也是它们最终会被遗忘的根本原因:
- 豆包手机:
ACCESS_FINE_EVENTS是 Android 系统级高危权限,微信、支付宝、银行等 APP 会直接检测点击频率、滑动速度、权限列表,一旦发现异常就封号 —— 哪怕是字节自家的 Agent,也拿不到 “豁免权”,否则会引发全行业权限滥用危机。
- 小龙虾:CDP 调试接口是浏览器给开发者留的 “后门”,企业内网普遍禁止开启调试端口,电商、办公、社交平台会把批量 DOM 操作判定为爬虫 / 恶意脚本,直接封 IP、限账号。
两者都不敢碰真正的高价值生产力场景:比如支付宝 / 微信支付、银行转账、企业财务系统录入 —— 这些平台的安全机制,从设计上就是为了拦截这类 “类似黑客的调用方式”,小龙虾根本没有能力绕过,只能在无风控的轻场景里炫技。
- 豆包手机:用户核心数据(微信聊天、淘宝订单、高德行程)都存在各 APP 的云端服务器,手机端只能拿到界面展示数据,无法触达底层原始数据 —— 比如想让它 “根据微信消息里的旅行计划,自动调用高德规划路线”,它只能看到文字,根本无法调用高德数据库做实时匹配,最后还是要用户手动复制粘贴。
- 小龙虾:网页数据同样存在后端服务器,它只能读取渲染后的 DOM 文字 / 图片,无法调用后端接口获取原始数据 —— 比如想让它 “根据报销单图片自动匹配财务系统里的项目编码”,它只能 OCR 出文字,无法对接财务数据库做校验,最后还是要人工核对。
两者的 “协同能力” 都是假的:只能做表面的界面操作,无法实现真正的数据联动,自动化效率甚至不如人工手动操作,本质是 “用更复杂的方式做简单的事”。
不管是豆包手机还是小龙虾,都试图做 “跨生态 Agent 协同”,但这本身就是一条死路:
- 大厂不会开放核心接口:微信、支付宝、高德、浏览器等巨头,绝不会把用户核心数据(支付信息、聊天记录、行程数据)开放给第三方 Agent,哪怕是同生态的产品也不会打通底层数据;
- 多步骤调用 = 性能灾难:一个简单的任务要拆成十几次 API 调用,延迟动辄几十秒,用户根本无法忍受;
- 成本爆炸:依赖云端大模型 + 第三方 API(OCR、语音转写),一天跑下来成本可达几百元,普通人用不起。
之前无数 RPA(机器人流程自动化)软件已经验证过:跨应用协同要么被接口限制卡死,要么被成本与体验拖死,小龙虾和豆包手机只是换了个 “模拟操作” 的壳子,本质还是在走同一条死路。
豆包手机和小龙虾的 Demo,都在刻意回避真正的生产力需求,只挑 “无风控、无数据要求” 的软柿子捏:
- 能做的:整理录音、爬取公开数据、填写无风控的表单;
- 不能做的:报销审批(要对接财务数据库 + 触发风控)、支付操作(会被银行 APP 检测封号)、企业数据录入(内网禁止调试端口)。
它们的 “全自动” 只是看起来很美,实际落地时会被风控、数据、成本、体验四大问题死死卡住,根本无法成为 “职场基础设施”,更谈不上替代人工。
其实在豆包手机和小龙虾之前,早就有无数工具尝试过自动化:
- 早期 RPA 工具:通过调用 APP 内部接口实现自动化,结果被大厂接口修改、权限限制卡死;
- 脚本工具:通过模拟按键 / 点击实现操作,结果被平台风控检测封号;
- 现在的小龙虾 / 豆包手机:换了个 “AI Agent” 的包装,本质还是 “模拟操作 + 脚本执行”,依然逃不过风控与生态的限制。
模拟操作看似绕开了接口限制,实则换了个死法:之前是 “接口不让用”,现在是 “操作被风控”,本质都是无法突破平台的安全与生态壁垒,只是把问题从 “技术限制” 换成了 “合规风险”。
当大家为小龙虾的 Demo 惊叹时,别忘了昙花一现的豆包手机 —— 它曾经也被吹成 “AI 手机革命”,最终因为无法解决的底层缺陷,悄无声息地消失了。小龙虾的命运不会有任何不同:
- 它和豆包手机走的是同一条死路:用高危 / 调试能力模拟操作,触发风控、数据孤岛、生态死局;
- 它的 “全自动” 只是炫技,不敢碰真正的生产力场景;
- 它的成本与体验,注定只能是 “富人的玩具”,无法普惠普通人。
真正能落地的自动化,从来不是 “跨生态全自动” 的噱头:
- 要么是巨头内部的云端闭环(比如腾讯系微信→高德→滴滴的联动),在自己生态内打通数据;
- 要么是本地小模型 + 视觉识别的模拟操作,和真人手动操作行为一致,不触发风控,一次部署无限免费跑。
别再被 Demo 里的 “全自动” 迷惑了,小龙虾和豆包手机一样,都是资本吹出来的昙花一现,最终都会被遗忘在历史里。
要不要我帮你把这篇文章提炼成 3 条核心驳斥观点,方便你在社交媒体上直接发布?