从 Arc,Dia,Fellou之后,一码难求,AI 的风刮到了浏览器?

下午,偶然在群里看到有朋友在问,有没有Dia的邀请码......这是个什么产品??我查了下,原来是将AI与浏览器结合的产品。还有最近爆火的Fellou,也是一个将Agent与浏览器结合起来的东西。自manus之后,浏览器(browser-u

从 Arc,Dia,Fellou之后,一码难求,AI 的风刮到了浏览器?

下午,偶然在群里看到有朋友在问,有没有Dia的邀请码......

这是个什么产品??

我查了下,原来是将AI与浏览器结合的产品。

还有最近爆火的Fellou,也是一个将Agent与浏览器结合起来的东西。

自manus之后,浏览器(browser-use)重新进入人们的视野,这种新产品的交互模式打开了一种新的思路。

同样,千金难买的邀请码,成为营销的新模式。

一位AI Kol也忍不住问:咋都流行邀请码了……

哎,最近也出了很多AI浏览器方面的东西,不如今天盘点一下吧,时间可能有点仓促。

起源:Browser Use

Browser Use 是一个开源的网络自动化工具,利用大语言模型让 AI Agent 能够像真实用户一样操作浏览器,自动完成设置的动作,如填写表单、内容提取等。

Shows a black Browser Use Logo in light color mode and a white one in dark color mode.

为方便使用,Browser Use 还提供了一个 Web UI,这样可以直接在浏览器中直接配置任务,不需要再写 Agent 代码了。

webUI版本的如下:

prompt:

代码语言:javascript代码运行次数:0运行复制
Write a letter in Google Docs to my Papa, thanking him for everything, and save the document as a PDF.

为什么会突然这么火?

可能是因为Manus 。它是一款火爆的 AI 通用智能体,Browser Use 作为其驱动工具之一,随着 Manus 的走红而迅速提升了知名度。

一篇关于 Manus 使用 Browser Use 的帖子在 X 平台上获得了超过 240 万次浏览和数百次转发。

使用Browser use技术之后生成的内容比对话chat式的好很多。

一个很重要的原因是,这个东西是开源的,谁都可以用啊。

Arc系列浏览器以及香饽饽Dia浏览器

ARC 是一款最近爆火的基于 Chromium 内核的浏览器,它打造出一整套更先进的交互逻辑和操作体验,成功获得了大佬们的推荐!

也许,你会有这样的困惑.......

我是谁,我在哪,根本找不到标签页在哪

还有同类的标签,打开了多个,切换的时候,得精确点到最上面的那个标签页上去。。。

传统的浏览器,太麻烦了。

ARC 浏览器带给我们一次全新的体验。

比如 Space (空间) 概念 / 竖向标签栏布局 / 快速预览 / 分屏 / 整合 AI 功能等,使得 ARC 跟传统的浏览器完全不一样……

Space (空间) 概念 / 竖向标签栏布局

使用 Profiles 和 Spaces 在测试帐户之间轻松切换

使用 Arc Max 让浏览器做更多的事情。

俗话说,青出于蓝,而胜于蓝。

爆火的Dia浏览器就是他家的。

Dia 浏览器在其早期和公测阶段使用了邀请码制度,我还没拿到。

Fellou浏览器

Fellou 是 AI 智能体初创公司 Fellou AI 推出的全球首个 Agentic(行动型)浏览器,具备传统浏览器的信息浏览功能,能智能执行任务,将繁琐的点击操作转化为简单的指令。

Fellou 能自动解析用户指令、拆解任务,跨多个网页和系统调度操作;可根据用户行为预测需求并提供行动建议;在后台独立执行任务,不干扰用户正常操作;支持用户使用和共享各种垂直领域的智能体应用。

Fellou将Browser、Agent、Workflow Automation三者整合成Agentic Browser:

Browser(浏览器):负责Web内容访问与渲染,以及对操作系统、文件系统、命令行与本地应用的直接控制;

Agent(智能体):负责「思考」和「决策」,基于LLM或其他算法来理解上下文、规划行动;

Workflow Automation(工作流自动化):负责「执行」和「工具化」,调用不同的API、插件、脚本,实现跨网站、跨应用的自动化操作,与A2A、MCP等协议集成。

Fellou的主要功能

  • 深度行动(Deep Action):用户只需用简单指令,Fellou 能将繁琐的点击操作转化为智能工作流,例如自动填写表单、管理标签页等。
  • 主动智能(Proactive Intelligence):Fellou 能主动为用户提供行动推荐和结果建议,为用户形成个人知识库,强化个性化体验。
  • 影子空间(Shadow Workspace):Fellou 的智能工作空间可在后台跟踪和管理用户活动,用户可以实时监控或干预 Agent 的行为,不影响用户正常操作。
  • 智能体网络(Agent Store):用户可以享受到更多垂直 Agent 能力,开发者可以将自己的经验、知识和工作流封装为 Agent,供其他用户使用。

Eko 是适用于所有平台的下一代高效代理框架,专为需要灵活性和定制的开发人员量身定制。

Eko(发音为“echo”)是Fellou AI推出的一个跨平台AI Agent框架,旨在构建生产就绪的Agent工作流。它为开发复杂的工作流提供了一种高效的跨平台解决方案,使开发人员能够将自然语言和编程语言相结合。为了生产安全,Eko 提供实时监控和干预功能。

支持了多种Agent开发tool,比如工具Hook,LLM API等

分层规划:将离线计划与执行分离,创建可重用和可修改的任务计划。

全新的Web 提取技术:视觉交互元素感知 (VIEP) 技术可以将Token减少 99%。

Fellou 浏览器目前也仅仅支持iMac笔记本电脑,Win版本还在跟进中。

OpenAI 前 AI 大神 Andrej Karpathy 提出的“LLM 操作系统”设想中,LLM 作为系统内核,类似传统 CPU,负责核心任务处理和组件协调,配备上下文窗口(类似 RAM)用于短期信息存储,文件系统(类似硬盘)用于长期存储,以及向量数据库用于语义理解和检索。此外,系统还包括浏览器、多模态工具、代码解释器、计算器等工具,支持多种数据类型和复杂任务处理。

然而,AI Agent 在与浏览器交互时面临动态内容、复杂页面结构和反爬机制等挑战。比如广告墙、机器验证码、404错误,页面反爬机制等。

Browserbase 创始人 Paul Klein 提出开发高效浏览器,利用 LLM 和 VLM 提供自然语言交互,支持动态内容处理,并提供可靠 SDK 和 API 简化开发流程,目标是让 AI Agent 通过标准化协议直接与浏览器或网站通信,跳过视觉交互环节,实现自动化操作。

MCP 作为一种解决方案,通过客户端-服务器架构,用协议取代界面操作,连接 AI Agent 和外部资源,类似“万能接口”,让 AI 模型能够轻松连接文件、数据库、在线服务等,实现数据获取和操作。

未来,浏览器将继续服务人类,但会更适配 AI 需求,形成人类指挥、Agent 执行的高效协作模式。

从 CLI 到 GUI,再到自然语言交互和协议层交互,技术复杂化,但交互方式不断简化。

谁也说不准,MCP是否一场新的AI泡沫,或许是时代进步的一个索引。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-23,如有侵权请联系 cloudcommunity@tencent 删除协议工具工作流开发浏览器

发布者:admin,转转请注明出处:http://www.yc00.com/web/1747545348a4650787.html

相关推荐

  • 从 Arc,Dia,Fellou之后,一码难求,AI 的风刮到了浏览器?

    下午,偶然在群里看到有朋友在问,有没有Dia的邀请码......这是个什么产品??我查了下,原来是将AI与浏览器结合的产品。还有最近爆火的Fellou,也是一个将Agent与浏览器结合起来的东西。自manus之后,浏览器(browser-u

    6小时前
    10

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信