OpenAI发布新模型o1，更像理科生，不会多模态但推理能力超强

理想主义者 09-13 138

默认

摘要： 澎湃新闻编辑秦盛由人工智能新锐巨头前员工创办获得亚马逊和谷歌资助的新创企业推出旗下最先进的大模型在各项评分上超越当地时间月日被视为头号竞争对手的宣布推出...

澎湃新闻编辑秦盛(01:00)由AI（人工智能）新锐巨头OpenAI前员工创办、获得亚马逊和谷歌资助的AI新创企业Anthropic推出旗下最先进的大模型，在各项评分上超越GPT-4。当地时间3月4日，被视为OpenAI头号竞争对手的Anthropic宣布推出Claude 3系列模型，在宣传...

9月13日消息，去年，OpenAI通过推出GPT-4，实现了人工智能领域的一次重大突破。周四，该公司宣布了一个标志着其研究方向转变的全新模型：OpenAI o1。

OpenAI o1具备独特的逻辑“推理”能力，能够许多现有模型（包括OpenAI目前最强大的模型GPT-4o）无法处理的复杂问题。与传统大语言模型通常一步给出不同，OpenAI o1像人类一样，通过逐步，最终得出正确的结论。

OpenAI首席技术官米拉·穆拉蒂（Mira M i）在接受采访时表示：“我们将其视为模型发展的新范式，特别是在处理复杂推理任务时，展现出了前所未有的优势。”

OpenAI o1的内部代号为“草莓”，并非旨在取代GPT-4，而是对其的补充。

穆拉蒂还透露，OpenAI目前正在构建下一代主模型GPT-5，其规模将远超前代。尽管公司依然认为扩大模型规模能带来新的突破，GPT-5预计将融合本次展示的推理技术。“我们有两个发展方向，一个是规模扩展，另一个是推理能力提升，我们希望最终将两者结合，”穆拉蒂说道。

大语言模型通常依赖庞大的和海量数据进行训练，展现出卓越的语言和逻辑能力，但在处理基本推理问题（如简单的数学题）时，表现不佳。

穆拉蒂指出，OpenAI o1采用了强化学习技术，通过对正确给出正反馈、错误给出负反馈，逐步提升模型的推理策略。她补充说：“这个模型不仅提升了思维的敏锐度，还微调了它用于问题的策略。”强化学习已经帮助计算机在游戏和复杂任务（如芯片设计）中取得了超凡表现，同时也是开发、友好的聊天机器人的关键技术。

OpenAI研究副总裁陈信翰（Mark Chen）展示了OpenAI o1的能力，了GPT-4o无法处理的多个问题，包括复杂的化学题和一个棘手的推理题。表示：“新模型不再只是模仿人类思维方式，而是学会了思考。”

OpenAI称，新模型在多个领域（如编程、数学、物理、生物和化学）的中表现出色。在美国数学邀请赛（AIME）中，GPT-4o平均解答率为12%，而OpenAI o1的解答率则高达83%。

不过，OpenAI o1的速度不如GPT-4o，且其优势并非在所有情况下都明显，部分原因在于它无法搜索网络，也不具备多模态功能，无法处理图像或音频数据。

近年来，提升大语言模型的推理能力一直是研究热点，竞争对手也在积极探索。谷歌今年7月宣布了AlphaProof项目，结合了语言模型和强化学习，专注于复杂的数学问题。尽管AlphaProof能够通过正确学习数学推理，但面临的挑战在于现实问题并非总有明确。

OpenAI表示，其新推理系统具备更广泛的适用性。陈信翰认为：“我们在这一领域取得了突破，这也是我们的优势所在。该系统在各个领域的推理任务中表现出色。”

斯坦福大学教授诺亚·古德曼（Noah Goodman）曾发表过关于提高大语言模型推理能力的研究，他认为，通过精心设计的提示性语言模型结合手工优化数据，可能是实现推理能力提升的关键。古德曼还表示，如果能在速度和准确性之间取得平衡，将是“意义重大的进步”。

麻省理工学院助理教授Yoon Kim指出，大型语言模型的推理机制仍显得神秘，尽管它们能够逐步推理，但与人类思维或存在本质差异。这种差异在技术被广泛应用时可能会变得至关重要。他说：“这些系统可能会做出影响众多人的决策。更大的问题是，我们能否信赖它们的决策机制？”

OpenAI新技术或许还有助于确保AI模型的“良性行为”。穆拉蒂表示，新的推理模型可以通过对结果的推理，避免产生不良或有害的输出。她说：“就像教育孩子一样，一旦他们理解为什么要做某件事，他们就能更好地遵守规范、行为准则和价值观。”

华盛顿大学名誉教授、人工智能专家奥伦·埃齐奥尼（Oren Etzioni）指出：“让大语言模型具备多步骤推理、使用工具和复杂问题的能力至关重要，单靠规模扩展难以达成这一目标。”他补充说，即使推理能力得到提升，幻觉和事实验证问题依然存在。

陈信翰透露，该公司开发的新推理方法表明，人工智能的发展并不一定需要庞大的算力支撑。“这一变革令人振奋。我们相信它能以更低的成本实现智能输出，而这正是我们公司核心愿景的一部分。”（小小）