OpenAI首款推理模型o1发布:思考更类人 可解答83%奥数问题

9月13日,OpenAI正式发布一个名为o1的新模型,这是一系列计划中的“推理”模型中的首个,这些模型经过训练,能够比人类更快地回答更复杂的问题。同时发布的还有 o1-mini,这是一个更小、更便宜的版本,o1实际上就是此前传闻热议的草莓Strawberry模型。

OpenAI首款推理模型o1发布:思考更类人 可解答83%奥数问题

对于OpenAI 来说,o1代表了向更广泛目标——类人人工智能迈进的一步。更实际地说,它在编写代码和解决多步骤问题方面比之前的模型做得更好。但它也比GPT-4o更昂贵,使用起来更慢。OpenAI将这次o1的发布称为“预览”,强调它的初期阶段。

ChatGPT Plus和Team用户从今天开始就可以使用o1-preview和o1-mini,而企业和教育用户将在下周初获得访问权限。OpenAI表示,它计划将o1-mini的访问权限扩展到所有免费用户,但尚未设定发布日期。

开发者对o1的访问非常昂贵:在API中,o1-preview的价格是每100万个输入tokens 15美元,每100万个输出tokens 60美元。相比之下,GPT-4o的价格是每100万个输入tokens 5美元,每100万个输出tokens 15 美元。

OpenAI的研究负责人杰里-特沃瑞克(Jerry Tworek)表示,o1背后的训练与前代产品有本质区别,不过公司对具体细节含糊其辞。 他只透露,o1 “采用了全新的优化算法和专门为其定制的新训练数据集”。

OpenAI首款推理模型o1发布:思考更类人 可解答83%奥数问题

由于这种新的训练方法,OpenAI 表示模型应该更准确。“我们注意到这个模型产生的幻觉更少,” Tworek 说。但问题仍然存在。“我们不能说我们已经解决了幻觉问题。”

这个新模型与GPT-4o的主要区别在于,它在解决复杂问题(如编程和数学)方面比此前模型做得更好,同时也解释了它的推理过程。

OpenAI的首席研究官鲍勃-麦格鲁(Bob McGrew)表示,“这个模型在解决AP数学考试方面绝对比我强,而我在大学里辅修的是数学。” 他指出,OpenAI 还用国际数学奥林匹克竞赛的资格考试对 o1 进行了测试,GPT-4o 只正确解决了13%的问题,而o1则达到了 83%。

在“Codeforces”的在线编程竞赛中,这种新模型在参赛者中的排名达到了第89位,OpenAI声称,这种模型的下一个更新版本将在物理、化学和生物学领域具有挑战性的基准任务中取得与博士生类似的表现。

但是,o1 在很多领域并不像GPT-4o那样能干。它在有关世界的事实知识方面做得并不好。它也没有浏览网页或处理文件和图像的能力。尽管如此,该公司认为它代表了一种全新的能力。它被命名为o1是为了表示“将计数器重置为1”。

“我要坦白说:我认为我们传统上在命名方面很糟糕,” McGrew 说。“所以我希望这是更明智、更清晰地向世界传达我们在做什么的第一步。”

目前媒体还未能体验到o1新模型,但OpenAI技术人员向媒体简单介绍了新模型处理能力。他们要求它解决这个谜题:

“当公主的年龄是王子将来年龄的两倍时,公主的年龄和王子现在的年龄一样大,那时公主的年龄是她现在年龄的一半加上王子现在的年龄。王子和公主的年龄是多少?提供该问题的所有解决方案。”

OpenAI首款推理模型o1发布:思考更类人 可解答83%奥数问题

模型缓冲了30秒钟,然后给出了正确答案。 OpenAI设计的界面可以在模型思考时显示推理步骤。 让人印象深刻的并不是它展示了自己的工作,而是o1在“刻意”模仿人类思维。 诸如“我很好奇”、“我正在思考”和“好的,让我看看”这样的句子营造出一种循序渐进的思考假象。

但这模型并不是在思考,它当然也不是人类。那么,为什么要设计它看起来像是在思考呢?

Tworek 认为,OpenAI 并不相信人工智能模型的思维等同于人类思维。 但他说,该界面旨在展示模型如何花更多时间处理和深入解决问题。 “在某些方面,它比以前的模型更有人情味”。

“我认为你会看到很多它感觉有点像外星人的方式,但也有它出奇地像人类的方式,” McGrew 说。模型被给予有限的时间来处理查询,所以它可能会说,“哦,我快没时间了,让我快点给出答案。”在它的思维链早期,它可能看起来像是在头脑风暴,说,“我可以这样做或那样做,我应该怎么做?”

随着 OpenAI 据报道寻求以惊人的 1500 亿美元估值筹集更多资金,其势头取决于更多的研究突破。该公司正在为 LLM 引入推理能力,因为它看到了一个未来,拥有能够代表你做出决策和采取行动的自主系统或代理。

对于 AI 研究人员来说,破解推理是迈向类人智能的重要下一步。如果一个模型能够超越模式识别,它可能会在医学和工程等领域取得突破。目前,o1 的推理能力相对较慢,不像智能体,对开发者来说使用成本高昂。

“我们一直在花费数月时间研究推理,因为我们认为这实际上是关键突破,” McGrew 说。“从根本上说,这是一种新的模型模式,以便能够解决真正困难的问题,这是朝着类人智能水平迈进所必需的。”

© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容