从 Arc,Dia,Fellou之后,一码难求,AI 的风刮到了浏览器?
这是个什么产品??
我查了下,原来是将AI与浏览器结合的产品。
还有最近爆火的Fellou,也是一个将Agent与浏览器结合起来的东西。
自manus之后,浏览器(browser-use)重新进入人们的视野,这种新产品的交互模式打开了一种新的思路。
同样,千金难买的邀请码,成为营销的新模式。
一位AI Kol也忍不住问:咋都流行邀请码了……
哎,最近也出了很多AI浏览器方面的东西,不如今天盘点一下吧,时间可能有点仓促。
起源:Browser Use
Browser Use 是一个开源的网络自动化工具,利用大语言模型让 AI Agent 能够像真实用户一样操作浏览器,自动完成设置的动作,如填写表单、内容提取等。
为方便使用,Browser Use 还提供了一个 Web UI,这样可以直接在浏览器中直接配置任务,不需要再写 Agent 代码了。
webUI版本的如下:
prompt:
代码语言:javascript代码运行次数:0运行复制Write a letter in Google Docs to my Papa, thanking him for everything, and save the document as a PDF.
为什么会突然这么火?
可能是因为Manus 。它是一款火爆的 AI 通用智能体,Browser Use 作为其驱动工具之一,随着 Manus 的走红而迅速提升了知名度。
一篇关于 Manus 使用 Browser Use 的帖子在 X 平台上获得了超过 240 万次浏览和数百次转发。
使用Browser use技术之后生成的内容比对话chat式的好很多。
一个很重要的原因是,这个东西是开源的,谁都可以用啊。
Arc系列浏览器以及香饽饽Dia浏览器
ARC 是一款最近爆火的基于 Chromium 内核的浏览器,它打造出一整套更先进的交互逻辑和操作体验,成功获得了大佬们的推荐!
也许,你会有这样的困惑.......
我是谁,我在哪,根本找不到标签页在哪
还有同类的标签,打开了多个,切换的时候,得精确点到最上面的那个标签页上去。。。
传统的浏览器,太麻烦了。
ARC 浏览器带给我们一次全新的体验。
比如 Space (空间) 概念 / 竖向标签栏布局 / 快速预览 / 分屏 / 整合 AI 功能等,使得 ARC 跟传统的浏览器完全不一样……
Space (空间) 概念 / 竖向标签栏布局
使用 Profiles 和 Spaces 在测试帐户之间轻松切换
使用 Arc Max 让浏览器做更多的事情。
俗话说,青出于蓝,而胜于蓝。
爆火的Dia浏览器就是他家的。
Dia 浏览器在其早期和公测阶段使用了邀请码制度,我还没拿到。
Fellou浏览器
Fellou 是 AI 智能体初创公司 Fellou AI 推出的全球首个 Agentic(行动型)浏览器,具备传统浏览器的信息浏览功能,能智能执行任务,将繁琐的点击操作转化为简单的指令。
Fellou 能自动解析用户指令、拆解任务,跨多个网页和系统调度操作;可根据用户行为预测需求并提供行动建议;在后台独立执行任务,不干扰用户正常操作;支持用户使用和共享各种垂直领域的智能体应用。
Fellou将Browser、Agent、Workflow Automation三者整合成Agentic Browser:
Browser(浏览器):负责Web内容访问与渲染,以及对操作系统、文件系统、命令行与本地应用的直接控制;
Agent(智能体):负责「思考」和「决策」,基于LLM或其他算法来理解上下文、规划行动;
Workflow Automation(工作流自动化):负责「执行」和「工具化」,调用不同的API、插件、脚本,实现跨网站、跨应用的自动化操作,与A2A、MCP等协议集成。
Fellou的主要功能
- 深度行动(Deep Action):用户只需用简单指令,Fellou 能将繁琐的点击操作转化为智能工作流,例如自动填写表单、管理标签页等。
- 主动智能(Proactive Intelligence):Fellou 能主动为用户提供行动推荐和结果建议,为用户形成个人知识库,强化个性化体验。
- 影子空间(Shadow Workspace):Fellou 的智能工作空间可在后台跟踪和管理用户活动,用户可以实时监控或干预 Agent 的行为,不影响用户正常操作。
- 智能体网络(Agent Store):用户可以享受到更多垂直 Agent 能力,开发者可以将自己的经验、知识和工作流封装为 Agent,供其他用户使用。
Eko 是适用于所有平台的下一代高效代理框架,专为需要灵活性和定制的开发人员量身定制。
Eko(发音为“echo”)是Fellou AI推出的一个跨平台AI Agent框架,旨在构建生产就绪的Agent工作流。它为开发复杂的工作流提供了一种高效的跨平台解决方案,使开发人员能够将自然语言和编程语言相结合。为了生产安全,Eko 提供实时监控和干预功能。
支持了多种Agent开发tool,比如工具Hook,LLM API等
分层规划:将离线计划与执行分离,创建可重用和可修改的任务计划。
全新的Web 提取技术:视觉交互元素感知 (VIEP) 技术可以将Token减少 99%。
Fellou 浏览器目前也仅仅支持iMac笔记本电脑,Win版本还在跟进中。
OpenAI 前 AI 大神 Andrej Karpathy 提出的“LLM 操作系统”设想中,LLM 作为系统内核,类似传统 CPU,负责核心任务处理和组件协调,配备上下文窗口(类似 RAM)用于短期信息存储,文件系统(类似硬盘)用于长期存储,以及向量数据库用于语义理解和检索。此外,系统还包括浏览器、多模态工具、代码解释器、计算器等工具,支持多种数据类型和复杂任务处理。
然而,AI Agent 在与浏览器交互时面临动态内容、复杂页面结构和反爬机制等挑战。比如广告墙、机器验证码、404错误,页面反爬机制等。
Browserbase 创始人 Paul Klein 提出开发高效浏览器,利用 LLM 和 VLM 提供自然语言交互,支持动态内容处理,并提供可靠 SDK 和 API 简化开发流程,目标是让 AI Agent 通过标准化协议直接与浏览器或网站通信,跳过视觉交互环节,实现自动化操作。
MCP 作为一种解决方案,通过客户端-服务器架构,用协议取代界面操作,连接 AI Agent 和外部资源,类似“万能接口”,让 AI 模型能够轻松连接文件、数据库、在线服务等,实现数据获取和操作。
未来,浏览器将继续服务人类,但会更适配 AI 需求,形成人类指挥、Agent 执行的高效协作模式。
从 CLI 到 GUI,再到自然语言交互和协议层交互,技术复杂化,但交互方式不断简化。
谁也说不准,MCP是否一场新的AI泡沫,或许是时代进步的一个索引。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-23,如有侵权请联系 cloudcommunity@tencent 删除协议工具工作流开发浏览器发布者:admin,转转请注明出处:http://www.yc00.com/web/1747545348a4650787.html
评论列表(0条)