讲坛主题:大模型赋能数学推理方法与评估
主讲嘉宾:王秋锋 教授
讲坛时间:2025年5月30日(周五)9:30-11:30
讲坛地点:蠡湖校区文浩馆205报告厅
主讲嘉宾简介:
王秋锋教授,西交利物浦大学智能科学系主任兼人工智能学院副院长, 苏州市认知计算应用技术重点实验室主任。他于2006在南京理工大学计算机科学与技术学院获得学士学位,2012年在中科院自动化所获得模式识别与机器智能方向博士学位。博士毕业后,分别在中科院自动化所模式识别国家重点实验室以及微软从事研发工作。于2017年2月,加入西交利物浦大学至今。王秋锋教授的研究兴趣主要包括模式识别和机器学习,特别文档图像分析与识别领域,目前是中国图象图形学会文档图像分析与识别专委会副秘书长。王秋锋教授在国际期刊和会议上发表论文近100篇,包括IEEE Trans. PAMI,Pattern Recognition, ICLR, NeurlPS,ICML等;主持多项科研项目包括国家自然科学基金青年项目,面上项目以及腾讯CCF犀牛鸟基金等,获得了江苏省333高层次人才称号和苏州市人工智能自然科学奖一等奖等。
讲座内容简介:
在报告中,我们会介绍一种新的大模型数学推理评估范式MathCheck,它是一个用于评估大模型在数学推理任务中的泛化能力和鲁棒性的测试矩阵。随后通过MathCheck,我们构建了MathCheck-GSM(文本应用题)和MathCheck-GEO(多模态几何题),分别用于评估文本推理能力和多模态推理能力。实验结果表明,前沿模型如GPT-4o等继续表现出色,但其他模型在测试中表现出显著的性能下降。进一步分析显示,与传统评估方法相比,MathCheck更能准确反映模型的真实数学推理能力。此外,MathCheck还支持对模型推理行为的深入分析,并揭示了一些有趣的发现,并展示了MathCheck的设计准则在其他推理任务中的潜在应用价值。
