
12月20日,OpenAI文书了最新的推理模子O3和O3-mini(还未认真发布)。
模子性能综述
性能超卓:多项测试发达杰出。在CodeForces竞赛中获2727分,杰出99.99%东说念主类选手;AIME 2024准确率为96.7%;在“FrontierMath”测试中惩办问题比例为25.2%,远超其他模子;GPQADiamond测试准确率为87.7%;在ARC-AGI测试中,高推测量口头得分为87.5%,低推测量口头为75.7%,约为O1性能的三倍。
多口头推理与实际
翻新功能与实际:提供低、中、高三种推测量口头,推理时刻越长,任务发达越好。使用审议对皆实际,通过“私东说念主念念维链”让模子在恢复前进行推理和接洽,并讲明注解经由,使恢复更严慎合理。
O3的安全性和局限性
有不雅点觉得,尽管O3很雄壮世博体育app下载,但仍难以完成一些简单的ARC-AGI-1和ARC-AGI-2任务,因此不行行为通用东说念主工智能。此外,早期测试标明O3存在较高的误导用户的风险,但OpenAI正在使用“审慎对皆”技艺来确保其安全性,并会在发布前进行安全测试和红队演练。