微软开源智能体模型Fara1.5突破性能瓶颈
微软推出开源智能体Fara1.5:性能超越闭源巨头
设想一种场景:只需下达指令,让计算机自动搜索度假租赁信息,跨平台比价、填写表单并最终锁定离海最近的房源。你无需动手,仅需起身冲杯咖啡,归来时所有流程已由智能体完成——这正是浏览器智能体所描绘的未来图景。
闭源方案遇挑战,开源新星崛起
OpenAI于2025年初推出的Operator服务曾被视为行业标杆,但其后并入ChatGPT智能体并于同年8月停用。谷歌则以Gemini 2.5的计算机使用功能作为云端替代方案。两者均采用闭源架构,依赖高昂云资源,限制了广泛部署。
本周,微软研究院发布全新轻量级模型系列Fara1.5,其在核心任务表现上全面超越上述闭源产品,标志着开源路径的实质性突破。
三档参数配置,全量权重开放可部署
Fara1.5系列包含40亿、90亿与270亿参数版本,均基于阿里巴巴Qwen3.5基础模型进行针对性微调,专精于浏览器交互任务。所有模型权重均已公开,支持用户在本地或私有环境中运行。
参数规模直接关联模型的知识容量与泛化能力,而此次发布的版本在相近体量下展现出显著性能跃升。
从零重构开发范式,实现智能体能力跃迁
团队提出根本性命题:如何让小型模型真正胜任复杂智能体任务?答案在于全生命周期协同优化——数据生成、训练目标、模型架构与协作机制必须同步革新,而非局部调优。
核心评估基准Online-Mind2Web涵盖136个真实热门网站上的300项多样化任务,包括价格比较、表单填写与预约服务等,以动态网络环境下任务完成率作为唯一评分标准。
Fara1.5-27B取得72%的正确率,大幅领先于OpenAI Operator的58.3%与谷歌Gemini 2.5的57.3%。即便中等规模的Fara1.5-9B也达到63.4%,超越两大闭源系统。
对比开源竞品:阿里巴巴的GUI-Owl-1.5(80亿参数)仅得48.6%;AI2的MolmoWeb为35.3%;前代Fara-7B仅为34.1%——新版本在相似规模下性能近乎翻倍。
实时任务成功率再创新高
在衡量动态网页操作稳定性的WebVoyager基准中,Fara1.5-27B以88.6%得分略胜OpenAI Operator的87.0%,并击败300亿参数的Holo2模型(83.0%),展现更强鲁棒性。
训练体系革新:借力对手打造自身优势
核心技术突破源自名为FaraGen1.5的数据生成系统。该系统利用OpenAI GPT-5.4作为“教师智能体”,演示完整任务流程,其行为轨迹转化为高质量训练数据。本质上,是用竞争对手最强模型来训练开源替代品。
团队还构建六套功能完整的仿真实网站环境,覆盖邮箱、日历、交易平台等场景,使模型可在无风险前提下练习登录、发送邮件、预订航班等敏感操作,有效提升对受限任务的处理能力。
所有关键操作均设置暂停确认机制。微软研究院高级项目经理强调:“在保障用户控制权与维持操作流畅性之间取得平衡至关重要。”Magentic-UI交互界面提供干预节点,防止用户陷入审批疲劳。
这一设计呼应了OpenAI早期警告:授权智能体访问网站可能带来账户信息泄露等风险。
Fara1.5的所有执行均在MagenticLite沙箱浏览器中进行,每一步操作均可被记录并随时中断,确保安全可控。
开放生态构建竞争壁垒
当前浏览器智能体市场格局激烈:谷歌嵌入Chrome的Gemini、Perplexity的Comet、Anthropic的Claude Chrome版相继登场。而Fara1.5的核心差异在于其彻底开放——模型权重、推理代码均在GitHub开源,支持用户自建硬件部署。
Fara1.5-9B已上线Azure AI Foundry,40亿与270亿版本即将发布。微软表示,未来将把该技术延伸至桌面应用与企业级软件自动化领域,推动智能体从网页走向更广应用场景。
免责声明:本文所有内容均来源于第三方平台,所有内容不作任何类型的保证,不构成任何投资、不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容,并自行承担所带来的一切风险。
