首页 > 讲座预告 > 正文

讲座预告

首页 > 讲座预告 > 正文

大模型的极限理论:解读智能涌现现象

发布时间 : 2025-09-12 10:11    点击量:

分享:
2025 9
15 报告时间 2025年9月15日(星期一)下午14:45-15:30
讲座类型 韶峰大讲堂

报告题目:大模型的极限理论:解读智能涌现现象

报告人:徐宗本 中国科学院院士  西安交通大学教授

报告时间:2025915日(星期)下午14:45-15:30

报告地点:米兰官方宣传片数学与计算科学学院负一楼学术报告厅

报告摘要:以大模型为特征的生成式人工智能近年来迅猛发展,正深刻影响并变革着科学技术的研究范式与工业革命进程。按照流行的认识,大模型的能力之所以强大源自它可能存在的智能(Intelligent Emergence)。然而,什么是智能涌现?是什么要素摧生了智能涌现?大模型在什么情况下才会出现智能涌现?对这些问题充满着疑惑和争论。本报告提出一个数学框架和数学理论来对此加以解析。我们的核心思想是: 利用三元随机函数(N, P, ∂ℓ)来度量大模型泛化性,利用 (N, P, ∂ℓ)的极限行为/极限速度 (N, P→∞, ∂ℓ→0)来度量大模型的尺度变化律(Scaling Law),并以此为基础来解译智能涌现,这里N 是用以训练大模型的数据规模,P是模型尺寸(包含参数个数),∂ℓ是训练损失达到极小的程度。我们定义“极限架构”这一无穷维系统概念,说明大模型智能涌现的新特征/新行为即是该极限架构的特征和行为(其泛化能力由ℰ(, ,0)度量)。我们提出ℰ(N, P, ∂ℓ)- (, ,0)的标准误差分解,并应用随机逼近工具、非线性Lipschitz算子工具,无限维Bayes估计工具来对这些误差进行估计。最终,我们获得了大模型泛化误差的如下极限速度估计:

∣ℰ(N, P, ∂ℓ)- (, ,0)

其中,(随趋于无穷趋于),分别是大模型基块的Lip数和Dahlquits是真解的光滑性程度是与网络架构组装方式相关的常数, 是数据的维数。

根据这一估计我们发现: 1)大模型泛化性能与模型规模的尺度率在亚指数率与指数律之间2)大模型泛化性能与训练数据规模的尺度率为亚指数率;3)当大模型的权值最优设定,而且其基块满足时,模型规模、训练数据规模趋于无穷将导致大模型出现智能涌现。

对于线性大模型情形我们进而应用大维随机矩阵理论详细刻画了大模型的极限行为导出了模型尺寸与训练数据规模的最优配置律,展现了大模型完全不同于小模型的统计学习规律。

 

 

报告人简介:

徐宗本中国科学院院士,鹏城国家实验室广州基地/琶洲实验室(黄埔)主任、陕西国家应用数学中心主任、大数据算法与分析技术国家工程实验室主任西安交通大学教授主要从事智能信息处理、机器学习、数据建模基础理论研究。提出稀疏信息处理的L(1/2)正则化理论,为稀疏微波成像提供了重要基础;发现并证明机器学习的“徐-罗奇”定理解决了神经网络与模拟演化计算中的一些困难问题为非欧氏框架下机器学习与非线性分析提供了普遍的数量推演准则; 提出基于视觉认知的数据建模新原理与新方法,形成了聚类分析、判别分析、隐变量分析等系列数据挖掘核心算法并广泛应用于科学与工程领域。曾获国家自然科学二等奖、国家科技进步二等奖、陕西省最高科技奖国际IAITQM 理查德·普莱斯(Richard Price)数据科学奖中国陈嘉庚信息技术科学奖、华罗庚数学奖、苏步青应用数学奖、吴文俊人工智能最高科技成就奖等,2010年世界数学家大会上作45分钟特邀报告。

 

 

湖南韶峰应用数学研究院

湖南国家应用数学中心

到家集团

米兰官方宣传片数学与计算科学学院

湖南省数学学会

湘潭国家高新技术产业开发区

湘潭市大数据和产业创新发展中心

“智能计算与信息处理”教育部重点实验室

“科学工程计算与数值仿真”湖南省重点实验室

“计算科学”湖南省科技创新国际合作基地

 

 

关闭

友情链接:

地址:中国湖南湘潭  邮编:4米兰体育网站首页05

版权所有©米兰官方宣传片 (湘ICP备18021862号-2) 湘教QS3-200505-000059

湘公网安备 43030202001058号    

Baidu
acc米兰体育