🦄九游下载中心_九游游戏中心官网特定领域的 RL 微调与高档遴选启发式相伙同-九游下载中心_九游游戏中心官网

新闻资讯你的位置：九游下载中心_九游游戏中心官网 > 新闻资讯 > 🦄九游下载中心_九游游戏中心官网特定领域的 RL 微调与高档遴选启发式相伙同-九游下载中心_九游游戏中心官网

🦄九游下载中心_九游游戏中心官网特定领域的 RL 微调与高档遴选启发式相伙同-九游下载中心_九游游戏中心官网

发布日期：2025-08-02 05:18 点击次数：184

IOI 2024 金牌，OpenAI o3 庸俗高分拿下！

刚刚，OpenAI 发布了对于推理模子在竞技编程中愚弄的接洽论文敷陈，论文中放出了 OpenAI 家推理模子三昆仲在 IOI 和 CodeForce 上的具体获利。

三昆仲辞别是 OpenAI o1、o1-ioi（以 o1 为基础微调等篡改而来）、o3，三者获利如下。

IOI 2024，国外信息学奥林匹克竞赛：

o1-ioi在严格圭表下拿到 213 分（49th percentile），放宽提交适度后飙升至 362.14 分；

o3在严格圭表下就拿到了 395.64 分，竣事金牌确立。

CodeForeces，模拟真正竞赛环境评估模子。

其中，o1-ioi 和 o3 的评分权臣高于 o1，尤其是 o3，依然接近顶级东说念主类选手：

o1：1673（89th percentile）

o1-ioi：2214（98th percentile）

o3：2724（99.8th percentile）

论文马上在全网扩散开来，网友竞相传阅并热烈接头。

有网友珍贵到，o1-ioi 在 IOI 2024 上弘扬出色，是因为它为每个问题生成了 10000 个候选解决决策，还用上了复杂的 test-time 策略；而 o3 在严格适度下达到顶级选手水平，仅用了 50 次提交，且无东说念主工策略干扰。

这就引出了 OpenAI 在论文中的一个高亮论断——

o3 的弘扬，解释了通过大范围端到端 RL（强化学习），无需依赖东说念主工缱绻的测试时推理策略，就能我方学会先写暴致力于解代码提高成果，再用其他门径交叉考证的策略。

网友满嘴喊着" impressive "：

下一个里程碑，是出现「单次提交就能治理每个问题」的模子。

简略 OpenAI o4 会带来这个时刻。

现在，这篇名为《Competitive Programming with Large Reasoning Models》的敷陈论文依然挂在了 arXiv 上，文末可见纵贯车。

o 系三昆仲，竞赛编程输攻墨守

竞技编程，是评估大模子推理和编码技艺的守望测试场景。

OpenAI 示意，这篇论文的接洽方针，是探究在复杂编码和推理任务中，RL 对大模子所起到的作用。

接洽经过还对比了通用推理模子与领域特定系统的性能，探索擢升 AI 推理技艺的有用旅途。

参与接洽的推理模子共 3 个，均出自 OpenAI 自家家门，辞别是：

OpenAI o1

OpenAI o1-ioi

OpenAI o3

通用推理模子 o1

o1 是一个经过 RL 磨练的大模子，用于处理复杂的推理任务。

通过 RL 磨练，o1 能生成 CoT（chain-of-thought，想维链），其作用是想考妥协决复杂问题，匡助模子识别和修订诞妄，将复杂任务明白为可不断的部分，并在门径失败时探索替代解决决策旅途。

除此除外，o1 还可调用外部用具考证代码。

在 CodeForce 基准测试中，o1 拿下了 1673 分（89th percentile）。

比较非推理模子（如 GPT-4o），和早期推理模子（如 o1-preview），o1 获利均有权臣擢升。

此外，接洽东说念主员在对 o1 进行开发和评估的经过中，发现加多「RL 筹画量」以及「test-time 推理筹画量」两方面的职责，皆能合手续擢升模子性能。

如下图所示，膨胀 RL 磨练和膨胀 test-time 推理均带来了权臣的收益。

针对性磨练推理模子 o1-ioi

在发现加多「RL 筹画量」以及「test-time 推理筹画量」的雄壮性后，OpenAI 团队在 o1 基础上进行针对性磨练，得到 o1-ioi，处所直指 IOI 2024。

除了针对编码任务的合手续 RL 磨练外，o1-ioi 还伙同了专为竞赛编程而缱绻的专用 test-time 推理策略（雷同 AlphaCode 的东说念主工缱绻的 test-time 推理策略）。

此经过第一步是膨胀 o1 的 RL 阶段，专注于编码任务。

通过将额外的磨练筹画专用于编程问题，团队增强了模子筹备、实施和调试更多波及的解决决策的技艺。

具体如下：

从 o1 的 checkpoint 收复了 RL 磨练。

罕见强调了具有挑战性的编程问题，匡助模子篡改 C++ 生成和运转时查验。

带领模子以 IOI 提交方式生成输出。

这种对编码的额外眷注，使 o1-ioi 能在推理时期编写和践诺 C++ 要领。

该模子通过迭代运转和优化解决决策来篡改其推理技艺，从而增强了其编码妥协决问题的技艺。

o1-ioi 参与了东说念主类选手商量条目的 IOI 2024。

它有 10 个小时的时期，来解决 6 个具有挑战性的算法问题，每个问题最多允许提交 50 次。

参赛时期，系统为每个问题生成了 10000 个候选解决决策，并使用 test-time 推理策略选了 50 个决策来提交——这里的 test-time 推理策略是，把柄 IOI 天下测试用例、模子生成测试用例和学习的评分函数上的弘扬，来确信每个提交内容的优先级。

最终，o1-ioi 在 IOI 2024 获 213 分，名次前 49%。

在 CodeForces 基准测试上，o1-ioi 的评分达到 1807，突出了 93% 的竞争敌手。

论文中写说念，"这标明，在编码任务上的额外 RL 磨练有了贯通的篡改。"

然后，团队用一个简便的筛选条目来圮绝任何未通过公开测试的解决决策时，评分高潮到 2092。

最终，在完满的 test-time 推理策略鼓舞下，o1-ioi 的评分飙升到 2214。

这些扫尾证实，特定领域的 RL 微调与高档遴选启发式相伙同，不错权臣提高有竞争力的编程扫尾。

接洽东说念主员示意，o1-ioi 的弘扬，解释特定领域的 RL 微调与先进遴选策略，是不错擢升竞技编程获利的。

通用推理模子 o3

第三个参战的是 OpenAI 最新推理模子 o3。

基于 o1 和 o1-ioi 的弘扬，OpenAI 团队探索了纯 RL 磨练、不依赖东说念主工缱绻的 test-time 策略的局限性。

以致试图探索用 RL 进一步磨练，该模子是否能够自主开发和践诺我方的 test-time 推理策略

为此，团队取得了 o3 的早期 checkpoint 的拜谒权限，来评估竞赛编程。

参与 IOI 2024 竞赛时，o3 与 o1-ioi 相似严格驯顺官方圭表，每个问题最多允许提交 50 次。

与 o1-ioi 为每个子任务单独采样解决决策不同，团队在评估 o3 时，接管了不同的门径：

从包含原始问题的单个请示中采样。

△o3 测试我方的解决决策

多提一句，过问 IOI 2024 的 o3 版块比过问 CodeForce 的 o3 版块更新，包含了额外的更新的磨练数据。

不外团队阐发了 IOI 2024 的测试集不包含在新的磨练测试里。

在单个问题只可提交 50 次的适度下，o3 在 IOI 2024 的最终得分是 395.64，突出了 IOI 2024 金牌门槛。

（IOI 2024 共产生 34 名金牌选手，金牌线为≥ 359.71）

而在 CodeForce 基准测试上，只是依靠进一步的 RL，o3 就取得了 2724 分的获利，力压 99.8% 的选手。

这个获利直逼东说念主类顶尖选手的水准！

值得珍贵的是，从得分 2214 的 o1-ioi（超越 98% 选手），到得分 2724 的 o3（超越 99.8% 选手），反应了推理模子在竞赛编程中的权臣擢升。

这标明 o3 能够以更高的可靠性，解决更平方的复杂算法问题，使其技艺更接近 CodeForces 的顶级东说念主类竞争敌手。

更专门义的是，o3 在 CodeForce 参赛时期展现出了更三想此后行的想维链。

它不仅能写代码、践诺并考证，还会把柄反馈赓续完善解法。

濒临考证复杂的周折，o3 在端到端 RL 时期，确凿学会了先写出暴力解法，再用最优算法的扫尾来交叉考证。

这种自主学习的考证机制，有用提高了决策的可靠性。

综上，团队标明，o3 的性能优于 o1-ioi 的原因，不依赖于针对 IOI 的特定东说念主工缱绻的 test-time 策略。

违犯，o3 磨练时期出现的复杂 test-time 手艺——如用暴力解法来考证输出——成为了东说念主工设策略略的替代品，让 o3 不需要 o1-ioi 所需的手动缱绻聚类、遴选 pipeline 等需求。

且比东说念主工设策略略的性能高出不少。

软件工程任务弘扬怎样？

除了竞赛编程，论文还在真正的软件工程任务上测试了 OpenAI 推理模子三昆仲的弘扬。

团队主如果在 2 个数据集上测试了仨模子：

HackerRank Astra：用于评估大模子在跨域多文献时势问题上正确性和一致性的测试集

SWE-bench：用于评估和计算软件工程的基准测试和模子评估集，由普林斯顿大学 NLP 团队开发

令东说念主惊喜的是，推理技艺的增强对软件工程任务也有权臣擢升。

三昆仲不仅能在竞赛编程中直逼东说念主类顶尖选手，在真正的软件工程任务上也有亮眼弘扬。

HackerRank Astra

HackerRank Astra 由 65 个面向时势的编码挑战构成，每个挑战皆是为了模拟真正的软件开发任务而用心缱绻的。

这些挑战涵盖了一系列框架，包括 React.js、Django 和 Node.js，允许取得构立功能和愚弄要领的实际告戒。

该数据集的出类拔萃之处在于，它专注于评估反应本色开发环境的复杂、多文献、长高下文场景中的问题解决手段。

与典型的竞争性编程数据集不同，HackerRank Astra 不提供公开的测试用例，这使 OpenAI 团队无法依赖东说念主工制作的测试时策略。

使用此数据集评估性能不错揭示推理技艺是单独提高算法问题解决的到手率，如故膨胀到更本色的、与行业关系的编码任务。

上图中的 pass@1，示意初次尝试到手完成任务的概率；平中分数，代表了通过的测试用例的平均比例。

扫尾骄气，与 GPT-4o 比较，o1-preview 的 pass@1 提高了 9.98%，平中分提高了 6.03 分。

而 RL 进一步微调不错擢升 o1 的性能，其 pass@1 为 63.92%，比 o1-preview 提高了 3.03%；平均得分为 75.80。

这些筹商解释了 o1 增强的推理和相宜性，使其能够有用地处理复杂的、与行业关系的软件开发任务。

SWE-bench

SWE-bench 由普林斯顿大学 NLP 团队开发，而 SWE-bench Verified 是 OpenAI 的 preparedness 团队经过东说念主工考证的 SWE-bench 的子集。

它不错更可靠地评估 AI 模子解决本色软件问题的技艺。

这组经过考证的 500 个任务，开荒了 SWE-bench 的某些问题，如正确解决决策的不正确评分、未指定的问题述说以及过于具体的单位测试——这有助于确保基准测试准确地对模子功能进行分级。

统统模子皆尝试 5 次来生成候选 patch。

如上图所示，与 GPT-4o 比较，o1-preview 在 SWE-bench 上的性能提高了 8.1%，展示了推理技艺的显着向上。

通过在磨练时期愚弄额外的 RL 筹画，o1 进一步篡改了 8.6%。

值得珍贵的是，磨练筹画资源比 o1 多得多的 o3，比 o1 篡改了 22.8%，"荒谬 impressive "。

这些扫尾示意，推理模子对软件工程等本色任务，也有很大适用性和使用价值。

One More Thing

OpenAI 职工示意，一张梗图不错很好地回归这篇论文。

略显缺憾的是，OpenAI 这篇新作天然挂在了 arXiv 上，但更像是敷陈而不管文——因为整篇论文没怎样骄气门径细节，光晒获利单了。

但其中所写如故引起了网友的感触：

任何不错测量的东西，皆将得到改善。

论文纵贯车：

https://arxiv.org/pdf/2502.06807

参考连气儿：

[ 1https://x.com/arankomatsuzaki/status/1889522974467957033

[ 2 ] https://x.com/iScienceLuvr/status/1889517116816244995

[ 3 ] https://x.com/jennywxiao/status/1889517249033281631🦄九游下载中心_九游游戏中心官网

九游下载中心_九游游戏中心官网

新闻资讯你的位置：九游下载中心_九游游戏中心官网 > 新闻资讯 > 🦄九游下载中心_九游游戏中心官网特定领域的 RL 微调与高档遴选启发式相伙同-九游下载中心_九游游戏中心官网

🦄九游下载中心_九游游戏中心官网特定领域的 RL 微调与高档遴选启发式相伙同-九游下载中心_九游游戏中心官网

上一篇：🦄九游下载中心_九游游戏中心官网但愿能匡助环球用好这个强盛的 AI 神器-九游下载中心_九游游戏中心官网

下一篇：🦄九游下载中心_九游游戏中心官网但关于有机物的深度贬责后果欠安-九游下载中心_九游游戏中心官网

友情链接：