OpenAI 最强竞品大更新！一句话模拟人类用电脑AI 智能体觉醒前的重大突破_录制器

OpenAI 最强竞品大更新！一句话模拟人类用电脑AI 智能体觉醒前的重大突破

来源：乐鱼直播app 发布时间：2025-01-16 11:46:41

环顾宇内，能够与 OpenAI 抗衡的对手屈指可数，Anthropic 旗下的 Claude 模型至少算是一个靠谱的劲敌。

盼星星，盼月亮，没有等到「超大杯」Opus 的亮相，但好在也等来了全新升级的大杯 Claude 3.5 Sonnet。

Anthropic 推出了一个公开测试的革命性功能「computer use」：通过 API 教 Claude 像个人一样操作电脑，能看屏幕、动光标、点按钮、打字……

简单说就是，Claude 现在能用人类设计的标准工具和软件了。而开发的人能借此解放一些枯燥的重复性流程任务，甚至进行开放式任务，如研究。

具体来说，开发者在交互过程中集成这一 API，让 Claude 将指令（比如：「用我电脑上的数据，结合网上信息填个表」）翻译成计算机指令（比如：检查个表格，动动鼠标打开个浏览器，导航到相关网页，然后用网上的数据把表格填满）。

OSWorld 是一个用于测试多模态智能体在真实计算机环境中执行开放式任务的能力的基准测试平台，通常用来评估 AI 模型是不是具备像人类一样使用计算机的能力。

例如，Replit 正在利用 Claude 3.5 Sonnet 的计算机操作与界面导航能力，为其 Replit 智能体产品开发一项关键功能，用于评估正在构建中的应用程序。

官方也坦诚，当前这一功能仍处于实验阶段，在操作计算机时速度较慢，并且经常会出现错误。一些简单的操作——比如滚动、拖动、缩放，看似人类一挥手就能搞定的事儿，对 Claude 来说依然是个不小的挑战。

在录制这些演示的过程中，我们遇到了一些有趣的插曲。有一次，Claude 不小心终止了一个正在进行的长时间屏幕录制，结果所有的录像素材都丢失了。

之后，Claude 在我们的编码演示间隙休息了一下，开始欣赏黄石国家公园的照片。

此外，Claude 通过截取屏幕的静态图像，然后将这些图像组合起来，以理解屏幕上发生的事情，但也正因此，它可能没办法捕捉到屏幕上的短暂动作或通知，比如弹出窗口或快速变化的图标。

官方也说了，之所以提前发布一个实验品，是为了获取开发者的反馈，预计这功能跟着时间会逐渐有所改进。

在开发「computer use」功能时，他们组织了一次工程故障排查会，目的是找出 API 中所有潜在的问题。

几位工程师聚在一个房间里工作几个小时，但很快就饿了，所以其中一位工程师的第一个「computer use」请求是让 Claude 导航到外卖平台 DoorDash 并订购足够的食物来喂饱大家。

尽管现在大模型榜单的公信力已不如往日，但基于同一套考题的逻辑下，我们仍就能对新发布的模型有个初步了解。

特别是在编码领域，Claude 3.5 Sonnet 更是进一步拉大了一马当先的优势。或许你会好奇，为什么基准测试里没再次出现与 OpenAI o1 模型的对比。

我们的评估表格中之所以没有包含 OpenAI 的 o1 模型系列，是因为它们在响应前需要大量的计算时间，这与大多数模型不同。这种本质上的区别使得进行性能比较变得复杂。

更重要的是，这些改进并未提高价格或降低速度，Claude 3.5 Sonnet 仍保持了与前代相同的性价比。

官方博客中提到，编码能力的改进是 Claude 3.5 Sonnet 的最大亮点。

GitLab 测试发现其推理能力提升了 10%，无额外延迟，很适合多步骤的软件开发流程。The Browser Company 也指出，Claude 3.5 Sonnet 在自动化网页工作流程方面的表现超越了他们之前测试的所有模型。

作为追求极高安全系数的模型公司，Anthropic 自然也对 Claude 3.5 Sonnet 进行了灾难性风险评估，结果符合 ASL-2 标准。。

ASL-2 指的是显示出危险能力早期迹象的系统（例如能够给出如何制造生物武器的指令），但这一些信息由于可靠性不足或无法超越搜索引擎能提供的信息而没太多用处。

简言之，Claude 3.5 Sonnet 再强，也还没有到威胁人类的地步。

聊完性能最强的模型，接下来登场的是，响应速度最快的全新升级模型——Claude 3.5 Haiku。

低延迟、改进的指令执行能力及更精准的工具使用能力，这些特性都让 Claude 3.5 Haiku 非常适合于需要个性化服务的场景中。

比如根据你以前买东西的习惯来推荐商品，或者帮你决定商品的价格，甚至是帮你管理仓库里的存货。

最后，升级版的 Claude 3.5 Sonnet 现已面向全用户开放。而 Claude 3.5 Haiku 将于本月晚些时候发布，初期只支持文本输入，图像输入功能随后推出。

如果你最近关注 AI 圈，你会发现行业里的几位重要人物都玩起了「未卜先知」。

他们画了一张又一张堪比乌托邦的 AGI 蓝图，如治愈大多数疾病、解决气候问题、消除贫困等，如果汇总几篇长文的核心思想，AI 几乎成了包治百病的神药。

在没有可靠、可持续的商业模式下，这个行业只能靠对 AGI 的「盲信」来维持高昂的投资和支出，就好像挂在驴前面的那根晃荡的萝卜。

换言之，今天发布的 Claude 模型等一系列产品功能也是在让我们重拾信心，而按照以往的产品发布节奏，OpenAI 预计也快要出手了。

不同之处在于，OpenAI 的武器库显然更丰富。或许下一个亮相的会是 OpenAI o1 的正式版，又或者是「期货」Sora。