李想刚发了条朋友圈,盘点 2025 到 2026 年初最具突破性的 AI 产品:Claude Code、豆包手机、Manus、OpenClaw、MoltBook、Chrome Gemini。
六个产品看着不相干,但背后都是一个问题:怎么让 AI 真正帮你干活?
订机票、发微信、填表格,你都想交给 AI。问题是每个 App 都是独立王国,不会把数据和操作权限开放给外人。你想要一个贾维斯,但贾维斯走到哪都吃闭门羹。
豆包手机、OpenClaw、Chrome Gemini 这三个产品选了同一条路绕过去:GUI Agent。
后门不开就走前门,让 AI 直接帮你看屏幕、模拟点击来操作你的设备。
【1】前门怎么走?
传统思路是走后门:让 App 开放接口,AI 直接调用。但现实是大多数 App 根本不开放。
GUI Agent 反过来:AI 在用户授权下帮你看屏幕,识别按钮和输入框在哪,模拟人的手指去点击、滑动、输入。就像你开视频让朋友远程帮你操作手机,只不过这个“朋友”是 AI,而且直接上手帮你干。如果是你自己授权,加上一些关键环节的确认,相对还是比较安全的。
【2】三个产品,同一个思路,落点不同
Chrome Gemini:浏览器里的智能体
Gemini in Chrome 不只帮你总结网页,它还有个功能叫“自动浏览”(auto browse):你说需求,它直接在网页里帮你跑流程,比如预约、填表、规划行程。
浏览器场景有个天然优势:网页不是一张图片,背后有结构信息,哪里是按钮、哪里是输入框,AI 能“看”得更准。所以这类能力会先在浏览器里成熟,再往系统级扩展。
豆包手机助手:手机里的智能体
字节跳动的豆包手机助手就是 GUI Agent 在手机上的打法:读屏幕内容,模拟点击、滑动,帮你跨 App 完成任务。
OpenClaw:电脑里的智能体
OpenClaw 这波火,很大程度因为“真的能干活”。它强调本地运行,能连接你常用的即时通信工具,像个住在电脑里的助手,在浏览器环境里帮你点网页、填表单、跑流程。它把这层能力封装得更好用了。
【3】GUI Agent 其实是个不错的技术路径
国内厂商围绕 GUI Agent 吵得凶:激进、危险、绕不过生态。但 OpenClaw 的火爆说明用户不想再等了,哪怕有风险也要试试。
矛盾很简单:用户想“现在就用、能跨一堆软件”,App 厂商想“别绕过我的地盘”。
GUI Agent 是个现实的折中方案。如果每个 App 都愿意开放接口,当然最好,但这需要时间,很多小 App、小网站根本不会配合。GUI Agent 绕过了这个问题,只要用户授权,能“看屏幕 + 点屏幕”,什么 App 都能操作,覆盖面广,上手快。
所以未来大概率是混合模式:重要的、高频的事走正规接口,长尾的、没人配合的事用 GUI Agent 兜底。
点击图片查看原图