您现在的位置是：首页 > 科技信息 > 正文

阿里云通义团队发布Qwen2.5-Math-PRM数学推理模型，7B版本力压GPT-4o

发布时间：2025-01-17 03:25:34编辑：史香初来源：

阿里云通义团队推出了全新的数学推理过程奖励模型Qwen2.5-Math-PRM，提供72B和7B两种版本，性能卓越，尤其在识别推理错误方面表现突出。其中，7B版本成功超越GPT-4o，标志着阿里云在推理模型研发上的重要突破。

为全面评估模型表现，团队还开源了首个步骤级的评估标准ProcessBench，涵盖3400个数学问题，包括国际奥林匹克数学竞赛难度的题目。评估显示，Qwen2.5-Math-PRM的两个版本均表现出色，特别是7B版本，展现了过程奖励模型在提高推理可靠性方面的巨大潜力，为行业提供了新思路。

标签：

猜你喜欢

最新文章