境字五行属什么| 八月十五是什么节日| 那是什么| 气是什么生肖| xpe是什么材质| 夕阳无限好是什么意思| 桂子是什么意思| 慢性结肠炎是什么症状| 吃什么东西涨奶最快| 小孩疝气是什么症状| 甲状腺用什么药| ca医学上是什么意思| 为什么青霉素要做皮试| 低血压吃什么调理| 女人梦到蝎子什么征兆| 什么是违反禁令标志指示| 喝酒拉肚子是什么原因| 阿玛尼算什么档次| 先天愚型是什么病| 炖鸡汤放什么调料| 护理假是什么意思| 气血虚是什么意思| 大便粗大是什么原因| 蜘蛛的天敌是什么动物| 手筋鼓起来是什么原因| 支原体是什么意思| 女性肝阳上亢吃什么药| 为什么歌曲| 日加军念什么| 运交华盖是什么意思| 上下眼皮肿是什么原因| 跌打损伤用什么药好得快| 盗墓笔记它到底是什么| 维生素b5又叫什么| 嘴唇上起泡是什么原因| 黄瓜和青瓜有什么区别| 梦见自己大笑是什么意思| 枣庄古代叫什么| 男人爱出汗是什么原因| 清炖鸡放什么调料| 什么是邮箱地址应该怎么填写| 安属于五行属什么| 腹股沟黑是什么原因| 低血压挂什么科| 母亲是o型血孩子是什么血型| 总是困是什么原因| 怀孕吃什么药可以流掉| 硫磺皂有什么作用| winbond是什么品牌| 什么魂什么魄| 中药什么时候喝| 男人梦见血是什么预兆| 全身骨显像是查什么的| 法西斯战争是什么意思| 孕初期吃什么对胎儿好| 3月30日是什么星座| 为什么会得肠梗阻| 耳鸣去医院挂什么科| 尿道感染是什么原因引起的| 黄豆吃多了有什么坏处| 梦到公鸡是什么意思| 堃是什么意思| 高粱是什么颜色| 家政是什么工作| 扁桃体发炎有什么症状| 断生是什么意思啊| 身上毛发旺盛什么原因| 什么运动减肥最快| 肚子咕噜咕噜响是什么原因| 黄皮果什么时候成熟| 十万个为什么作者是谁| 四维和大排畸有什么区别| 46岁属什么| 洗澡有什么好处| 水头是什么意思| b族维生素是什么意思| 什么路最窄打一生肖| 眼睛总是流泪是什么原因| 姓陆的女孩取什么名字好| 清华大学书记什么级别| 抹布是什么意思| 做梦梦到钱是什么预兆| 八仙过海是什么意思| 医学是什么| 病理报告是什么意思| 吃什么可以提高免疫力和抵抗力| 12月23日是什么星座| 什么水果对眼睛好| 哺乳期吃什么食物好| 水手服是什么| 白头翁幼鸟吃什么| 什么的怀抱| 荨麻疹是由什么引起的| 旺字五行属什么| pac是什么| 胃炎应该吃什么药| 两女一杯是什么| 文武双全是什么意思| 小寨附近有什么好玩的| 修女是什么意思| 中焦湿热吃什么中成药| 炖羊肉都放什么调料| 属猪男配什么属相最好| 李子有什么功效与作用| 凌晨一点多是什么时辰| 心脏房颤是什么原因| 梦见黄金是什么意思| lof是什么意思| 叶什么什么龙| 什么是强迫症| saa是什么检查| 黑眼圈是什么原因导致的| 什么牌子的氨基酸洗面奶好| 土字旁有什么字| 肌肉疼是什么原因| 尿很臭是什么原因女性| saba是什么药| 什么食物含锌| 鲤鱼爱吃什么食物| 涵字五行属什么| 氨咖黄敏胶囊治什么| 四季平安是什么生肖| 多囊是什么原因引起的| 菠菜是什么季节的菜| 尔时是什么意思| 脑心通主治什么病| 卓诗尼牌子是什么档次| 焦糖色配什么颜色好看| 门神是什么意思| 为什么医生很少开阿斯美| 心肌标志物是查什么的| 理疗是什么意思| 胃复安是什么药| 睡觉老做梦是什么原因| 谨记是什么意思| 四库是指什么| 文曲星是什么神仙| 老马识途是什么意思| hla是什么意思| 包皮与包茎有什么区别| 肺部肿瘤切除后吃什么| 水煎服是什么意思| 十月份是什么星座的| 为什么会得子宫肌瘤| 指南针是什么时候发明的| 茔是什么意思| 生理期为什么会腰疼| 病毒感冒吃什么药| ami是什么意思| 牛跟什么相冲| 什么的蚜虫| 成都什么地方好玩| 主见是什么意思| 胃不好看什么科| 面瘫是什么| 万丈深渊是什么意思| 一叶知秋下一句是什么| 咏柳中的咏是什么意思| 老打瞌睡犯困是什么原因| 小受是什么意思| 常吃南瓜子有什么好处和坏处| 儿童水杯什么材质好| 起什么网名好听| 晕车药有什么副作用| 胃病看什么科室| 黄豆什么时候播种| 乳腺导管扩张是什么意思严重吗| 补气血喝什么| 芪明颗粒主治什么病| 爱生闷气的人容易得什么病| 血压高吃什么药| 脂肪肝吃什么中成药| 健脾去湿吃什么药| hvp是什么病毒| 什么体质容易长结石| 夜卧早起是什么意思| 手指甲紫色是什么原因| 伏吟是什么意思| 夜间睡觉出汗是什么原因| 女人耳垂大厚代表什么| 什么态度| 偏光镜片是什么意思| 脖子发痒是什么原因| 董五行属什么| cpk是什么意思| 4.11是什么星座| 荨麻疹打什么针| 什么叫服务贸易| 什么是风寒感冒| 咳嗽有痰是什么原因| 严重贫血的人吃什么补血最快| 东方不败练的什么武功| 胃不舒服吃什么药| diqua是什么牌子| 吃什么降血脂和胆固醇| 什么是五谷| 心脏早搏吃什么药| 七个小矮人分别叫什么| 脚疼是什么原因| 以身相许什么意思| 鹦鹉鱼能和什么鱼混养| 维生素d3吃多了有什么副作用| 黄瓜与什么相克| 什么人骗别人也骗自己| 生物钟什么意思| 肠道蠕动慢吃什么药| 吃肠虫清要注意什么| 肠上皮化生是什么意思| 小孩发育迟缓是什么原因造成的| 机体是什么意思| 右肺下叶纤维灶是什么意思| 丙二醇是什么东西| nbi是什么意思| 胳膊上的肌肉叫什么| 尿多尿急是什么原因| 627是什么星座| 什么是月经| 腿浮肿是什么原因引起的| 素描是什么意思| 肾虚吃什么补最好| 吃什么水果能美白| 星期三打喷嚏代表什么| 浑身疼痛什么原因| 8月27号是什么星座| 去痛片又叫什么名| 皮肤角质化用什么药膏| hpv是什么病毒| 鸟屎掉头上有什么预兆| 57是什么意思| 绿豆跟什么一起煮最好| 梦见怀孕是什么预兆| 23号来月经什么时候是排卵期| 带手串有什么讲究| 属羊是什么命| 凤凰男是什么意思| 头不由自主的轻微晃动是什么病| 丫鬟是什么意思| 5月5是什么星座| 3月份是什么星座| dic是什么病| 大豆和黄豆有什么区别| 为什么感冒吃冰棒反而好了| 断掌有什么说法| 什么肉不含嘌呤| 华佗发明了什么| 甲状腺炎是什么引起的| 胚胎是什么| 科员是什么级别| 血钾查什么项目| 面包糠是什么做的| 96199是什么电话| 疱疹吃什么药见效快| 皮疹用什么药膏最好| 非经期少量出血是什么原因| 徐峥的老婆叫什么名字| 咳嗽有痰吃什么好的快| 姨妈少是什么原因怎么办| 什么是1型和2型糖尿病| 新生儿为什么会有黄疸| 辐射对人体有什么伤害| 为什么有的人特别招蚊子| 丹毒不能吃什么| 指腹脱皮是什么原因| 夏令时什么时候开始和结束| 百度

张会彬副主任带队检查我市实施《宗教事务条例》情况

OpenAI正致力于打造能够执行复杂任务的AI智能体,这一努力源于其数学推理团队MathGen的突破性工作。通过结合大语言模型、强化学习和测试时计算技术,OpenAI开发出了o1推理模型,该模型在国际数学奥林匹克竞赛中获得金牌。尽管当前AI智能体在主观性任务上仍有局限,但OpenAI相信推理能力的提升将最终实现通用智能体的目标。
百度   诚然,在社会价值多元的现实中,有一些年轻人更关心自己的“小确幸”,好像民主政治、祖国前途、人类理想,都与自己无关。

2022年,研究员Hunter Lightman加入OpenAI时,同事们正忙于推出后来风靡全球的ChatGPT,而他则静默地在MathGen团队工作,致力于让OpenAI的模型解决高中数学竞赛题目。如今,这个团队被认为是OpenAI业界领先的AI推理模型开发的关键力量——这正是能够像人类一样在计算机上执行任务的AI智能体的核心技术。

"我们试图让模型在数学推理方面表现更好,当时它们在这方面还不是很擅长,"Lightman向TechCrunch描述MathGen早期的工作。

尽管OpenAI的模型今天远非完美——公司最新的AI系统仍会出现幻觉,其智能体在复杂任务中仍有困难——但其最先进的模型在数学推理方面已有显著改进。OpenAI的一个模型最近在国际数学奥林匹克竞赛中获得金牌,这是世界上最聪明的高中生参加的数学竞赛。OpenAI相信这些推理能力将转化到其他学科,并最终为公司一直梦想构建的通用智能体提供动力。

ChatGPT是一个意外之喜——从低调的研究预览变成了病毒式传播的消费者业务——但OpenAI的智能体是公司内部多年来深思熟虑努力的产物。

"最终,你只需要向计算机询问你需要什么,它就会为你完成所有这些任务,"OpenAI首席执行官Sam Altman在2023年公司首次开发者大会上说道。"在AI领域,这些能力通常被称为智能体。这带来的好处将是巨大的。"

## 强化学习的复兴

OpenAI推理模型和智能体的兴起与一种名为强化学习(RL)的机器学习训练技术密切相关。RL在模拟环境中为AI模型提供关于其选择是否正确的反馈。

RL已被使用数十年。例如,2016年,在OpenAI成立一年后,Google DeepMind使用RL创建的AI系统AlphaGo在击败围棋世界冠军后获得了全球关注。

大约在那个时候,OpenAI的首批员工之一Andrej Karpathy开始思考如何利用RL创建能够使用计算机的AI智能体。但OpenAI需要数年时间才能开发出必要的模型和训练技术。

到2018年,OpenAI在GPT系列中开创了其第一个大语言模型,在大量互联网数据和大型GPU集群上进行预训练。GPT模型擅长文本处理,最终催生了ChatGPT,但在基础数学方面表现不佳。

直到2023年,OpenAI才通过结合大语言模型、RL和称为测试时计算的技术实现突破,最初被称为"Q*",后来称为"Strawberry"。后者为模型提供了额外的时间和计算能力来规划和解决问题,在提供答案之前验证其步骤。

这使OpenAI能够引入一种称为"思维链"(CoT)的新方法,该方法提高了AI在模型未见过的数学问题上的表现。

"我能看到模型开始推理,"El Kishky说。"它会注意到错误并回溯,它会感到沮丧。这真的感觉像在阅读一个人的思想。"

虽然这些技术单独来看并不新颖,但OpenAI独特地将它们结合起来创建了Strawberry,这直接导致了o1的开发。OpenAI很快发现,AI推理模型的规划和事实检查能力对于为AI智能体提供动力很有用。

"我们解决了一个我已经苦思几年的问题,"Lightman说。"这是我研究生涯中最激动人心的时刻之一。"

## 扩展推理能力

通过AI推理模型,OpenAI确定了两个新的维度,使其能够改进AI模型:在AI模型的后训练期间使用更多计算能力,以及在回答问题时给AI模型更多时间和处理能力。

"作为一家公司,OpenAI不仅思考事物的现状,还思考事物的扩展方式,"Lightman说。

2023年Strawberry突破后不久,OpenAI成立了由研究员Daniel Selsam领导的"智能体"团队,以在这一新范式上取得进一步进展。虽然该团队被称为"智能体",但OpenAI最初并没有区分推理模型和我们今天所认为的智能体。公司只是想让AI系统能够完成复杂任务。

最终,Selsam智能体团队的工作成为开发o1推理模型的更大项目的一部分,领导者包括OpenAI联合创始人Ilya Sutskever、首席研究官Mark Chen和首席科学家Jakub Pachocki。

OpenAI必须转移宝贵的资源——主要是人才和GPU——来创建o1。在OpenAI的历史中,研究人员必须与公司领导谈判以获得资源;展示突破是获得资源的可靠方式。

一些前员工表示,这家初创公司开发AGI的使命是在AI推理模型方面取得突破的关键因素。通过专注于开发最智能的AI模型而不是产品,OpenAI能够将o1优先于其他努力。这种对想法的大量投资在竞争的AI实验室中并不总是可能的。

尝试新训练方法的决定被证明是有先见之明的。到2024年底,几个领先的AI实验室开始看到通过传统预训练扩展创建的模型的回报递减。今天,AI领域的大部分动力来自推理模型的进步。

## AI"推理"意味着什么?

在许多方面,AI研究的目标是用计算机重现人类智能。自o1发布以来,ChatGPT的用户体验中充满了更多听起来像人类的功能,如"思考"和"推理"。

当被问及OpenAI的模型是否真正在推理时,El Kishky犹豫了,说他从计算机科学的角度思考这个概念。

"我们正在教模型如何有效地消耗计算资源来获得答案。如果你这样定义的话,是的,这就是推理,"El Kishky说。

Lightman采取的方法是专注于模型的结果,而不是手段或它们与人脑的关系。

"如果模型在做困难的事情,那么它就在做任何必要的推理近似,以便做到这一点,"Lightman说。"我们可以称之为推理,因为它看起来像这些推理轨迹,但这都只是试图制造对很多人来说真正强大和有用的AI工具的代理。"

## 下一个前沿:主观任务的AI智能体

当今市场上的AI智能体在编码等定义明确、可验证的领域中表现最佳。OpenAI的Codex智能体旨在帮助软件工程师减轻简单的编码任务。同时,Anthropic的模型在Cursor和Claude Code等AI编码工具中变得特别受欢迎——这些是人们愿意付费的首批AI智能体之一。

然而,像OpenAI的ChatGPT智能体和Perplexity的Comet这样的通用AI智能体在许多人们想要自动化的复杂、主观任务中遇到困难。当试图使用这些工具进行在线购物或寻找长期停车位时,我发现智能体花费的时间比我期望的要长,并且会犯愚蠢的错误。

当然,智能体是早期系统,无疑会改进。但研究人员必须首先找出如何更好地训练底层模型来完成更主观的任务。

"像机器学习中的许多问题一样,这是一个数据问题,"当被问及智能体在主观任务上的局限性时,Lightman说。"我现在真正兴奋的一些研究是找出如何在不太可验证的任务上进行训练。我们对如何做这些事情有一些线索。"

OpenAI研究员Noam Brown帮助创建了IMO模型和o1,他告诉TechCrunch,OpenAI有新的通用RL技术,允许他们教AI模型不容易验证的技能。他说,这就是公司如何构建在IMO获得金牌的模型的。

OpenAI的IMO模型是一个更新的AI系统,它产生多个智能体,然后同时探索几个想法,然后选择最佳可能的答案。这些类型的AI模型正变得更受欢迎;Google和xAI最近使用这种技术发布了最先进的模型。

"我认为这些模型将在数学方面变得更有能力,我认为它们在其他推理领域也会变得更有能力,"Brown说。"进展非常快。我没有理由认为它会放缓。"

这些技术可能有助于OpenAI的模型变得更高性能,这些收益可能会出现在公司即将推出的GPT-5模型中。OpenAI希望通过GPT-5的发布来确立其对竞争对手的主导地位,理想情况下为开发者和消费者提供最好的AI模型来为智能体提供动力。

但该公司也希望让其产品更简单易用。El Kishky说OpenAI希望开发能够直观理解用户需求的AI智能体,而无需他们选择特定设置。他说OpenAI旨在构建理解何时调用某些工具以及推理多长时间的AI系统。

这些想法描绘了ChatGPT终极版本的图景:一个能够在互联网上为你做任何事情并理解你希望如何完成的智能体。这与今天的ChatGPT是一个截然不同的产品,但公司的研究正朝着这个方向发展。

虽然OpenAI无疑在几年前领导了AI行业,但该公司现在面临一批有价值的对手。问题不再只是OpenAI能否实现其智能体未来,而是该公司能否在Google、Anthropic、xAI或Meta击败他们之前做到这一点?

Q&A

Q1:MathGen团队是什么?它对OpenAI有什么重要意义?

A:MathGen是OpenAI内部专门教授模型解决高中数学竞赛题目的研究团队,由Hunter Lightman等研究员组成。该团队被认为是OpenAI开发业界领先AI推理模型的关键力量,这些推理能力正是AI智能体能够像人类一样在计算机上执行任务的核心技术基础。

Q2:OpenAI的o1模型是如何开发出来的?

A:o1模型的开发源于2023年的"Strawberry"项目突破。OpenAI将大语言模型、强化学习和测试时计算技术独特地结合起来,让模型在回答问题前有额外时间和计算能力进行规划和验证。这种方法引入了"思维链"技术,显著提高了AI在数学推理方面的表现。

Q3:目前AI智能体在哪些任务上表现较好,在哪些方面还有限制?

A:目前AI智能体在编码等定义明确、可验证的领域表现最佳,比如OpenAI的Codex和Anthropic在Cursor等编码工具中的应用。但在复杂主观任务上仍有困难,如在线购物或寻找长期停车位时会耗时较长并出现错误,主要原因是缺乏足够的训练数据来处理不太可验证的任务。

来源:Techcrunch

0赞

好文章,需要你的鼓励

2025

08/04

08:23

分享

点赞

邮件订阅
脸上脱皮是什么原因 杨柳木是什么生肖 起伏不定是什么意思 榴莲吃多了有什么危害 为什么会静脉曲张
什么的冬天 中国的国树是什么 排卵日和排卵期有什么区别 痛风挂什么科室 开车压到蛇有什么说法
吃黄瓜对身体有什么好处 bc是什么 艾灸后痒是什么原因 为什么不建议治疗幽门螺杆菌 肝脾不和吃什么中成药
印度神油是什么东西 宫殿是什么意思 软骨炎是什么病 apgar评分是什么意思 epa是什么营养物质
梦见自己头发长长了是什么意思hcv8jop3ns0r.cn 绿杨春属于什么茶hcv9jop7ns4r.cn 9月什么星座hcv7jop6ns2r.cn 包皮红肿用什么药zsyouku.com 内外兼修是什么意思huizhijixie.com
疰夏是什么意思beikeqingting.com 脚面麻木是什么原因hcv9jop0ns7r.cn 乾元是什么意思hcv9jop3ns9r.cn 军校毕业是什么军衔hcv8jop4ns8r.cn 两眼中间的位置叫什么hcv8jop4ns5r.cn
什么辣椒最辣hcv9jop7ns9r.cn 妄语是什么意思hcv9jop6ns4r.cn 双眼屈光不正是什么意思bjhyzcsm.com 私处长痘痘是什么原因cl108k.com 新西兰用什么货币hcv8jop8ns7r.cn
汤去掉三点水念什么hcv8jop0ns8r.cn 严重贫血的人吃什么补血最快hcv9jop6ns3r.cn 野什么意思hcv8jop2ns8r.cn 梦见辣椒是什么预兆hcv9jop2ns2r.cn 火车动车高铁有什么区别hcv9jop5ns8r.cn
百度