site:www.51cto.com - Search News

两人的交流中季逸超谈到Agent能力可能更多的是对齐问题而不是基础能力问题，基础模型被训练为“无论任务有多复杂，都一次性回答所有问题”，而“只需对代理轨迹进行一点后期训练，就可以立即产生显著的变化”。

有趣的是，尽管 OpenAI 的 GPT-4o 等推理模型在大多数基准测试中总体表现更好，但在这种实时游戏场景中的表现却不佳。这是因为推理模型的决策过程较慢，通常需要几秒钟才能确定如何行动。

最近，CMU、滑铁卢大学等机构的3名华人学者就发表了一篇论文，针对SFT做出了更进一步的改进，提出批判式监督微调方法（CFT，Critique Fine-Tuning），旨在让模型更有效地模仿模仿数据集。

不论是起跑、跑步过程以及停跑，各个关节的协调几乎是没有了“机器人味儿”。国产机器人，再次惊呆了歪果仁。这便是深圳众擎机器人最新发布的视频。视频中的机器人名叫PM01，身高1.38米，体重约40公斤，全身24个自由度。

由于我在月亮山找不到直接出口，我最好的选择是故意输掉一场战斗，这样就会被传送回上次访问的宝可梦中心，也就是 Route 4 的月亮山宝可梦中心。从那里，我可以沿着已经确认好的路线前往 Cerulean 市。

OWL项目共同第一作者周宇航，虽然还在哈工大读大四，但已在AI研究的道路上跑出了自己的加速度。在校期间专业排名第一，曾获国家奖学金、省三好学生等多项荣誉，保研至复旦大学攻读硕士学位。

不过，METR最近结合OpenAI的GPT-4.5系统测试发现，AI能处理的任务时长正在迅速增加。比如，GPT-4o能在10分钟任务中达到50%的成功率，o1-preview能搞定30分钟任务，而o1已经能完成1小时的任务。

部分平台如Wix、Weebly流量增长稳定，而Shopify、Woocommerce则呈现下降趋势，表明生成式AI技术正在重塑电商平台的竞争格局。

打造出AlphaGo的超级天才、谷歌DeepMind十二年老将Ioannis Antonoglou下场创业了，初创Reflection已融资1.3亿，种子轮由红杉资本等领投。他和Gemini 的核心贡献者携手，目标是用强化学习造出真·超级AI。

据《WIRED》最新报道，马斯克主导的政府效率部（DOGE）近日在美国总务管理局（简称GSA）内部署了一款名为GSAi的政务聊天机器人，覆盖1500名联邦员工。这款AI工具旨在接管此前由人工完成的“常规”任务，而此举正值DOGE加速裁减联邦员工之际， ...

这一切在实践中意味着什么？转移复杂性。训练过程会预先考虑广泛的行动和边缘情况，从而使部署变得更加简单。但在这一过程中，大部分价值是在训练阶段创造的，并且最终很可能会被模型训练者所捕获。简而言之，Claude 的目标是破坏和取代当前的工作流，比如 ...

但随着近期 AI 技术的突破、双方的分歧加剧，微软正开始在 AI 赛道上加码。据知情人士透露，微软已经开发内部人工智能模型以与 OpenAI 竞争，这一战略性举措的目标是直接替代 OpenAI 的 o1、o3-mini 等核心模型，更标志着这对曾经的 ...

Some results have been hidden because they may be inaccessible to you