光华讲坛——社会名流与企业家论坛第6420期
主题:On ADMM in Deep Learning: Convergence and Saturation-Avoidance
主讲人:江西师范大学 曾锦山教授
主持人:计算机与人工智能学院 蒋太翔教授
时间:4月1日 9:30
会议地点:柳林校区经世楼D206-1(综合会议室)
主办单位:计算机与人工智能学院 新财经综合实验室 科研处
主讲人简介:
曾锦山,江西师范大学计算机信息工程学院特聘教授,副院长。2015年博士毕业于西安交通大学。先后在美国加州大学洛杉矶分校、香港科技大学和香港城市大学从事博士后或访问合作研究。入选江西省“双千计划”(首批培养类)和江西省杰青,曾两度获得“世界华人数学家联盟最佳论文奖”(2018、2020年),单篇论文入选“中国数学领域热点论文(2017-2021)”榜单(排名第5)。现已在JMLR、IEEE TPAMI/TSP/TKDE/TGRS和ICML等主流期刊和会议上发表高水平论文50余篇,承担国家自然科学基金2项。主要研究方向是人工智能中的优化理论与方法。
个人主页:https://jsjxy.jxnu.edu.cn/2017/0306/c3381a106182/page.htm
内容提要:
在这个报告中,我们将介绍一种用于深度神经网络训练的交替方向乘子方法(ADMM),并针对S型激活函数(称为sigmoid-ADMM组合)的梯度自由特性和具有S型激活函数(称为深度sigmoid网络)的深度神经网络相对于具有整流线性单元(ReLU)的深度神经网络(称为深度ReLU网络)在逼近方面的优势进行了探讨。具体而言,我们证明了深度sigmoid网络的逼近能力不劣于深度ReLU网络,通过展示ReLU激活函数可以通过两个隐藏层和有限个自由参数的深度sigmoid网络进行良好逼近,但反之不成立。我们还证明了所提出的ADMM对于非线性约束深度sigmoid网络的训练具有全局收敛性,收敛速度为O(1/k)。与广泛使用的随机梯度下降(SGD)算法用于深度ReLU网络训练(称为ReLU-SGD组合)相比,所提出的sigmoid-ADMM组合在算法超参数,包括学习率和初始方案方面具有实际稳定性。此外,我们发现,为了逼近和学习简单但重要的函数,所提出的sigmoid-ADMM组合在数值上优于ReLU-SGD组合。
In this talk, we introduce an alternating direction method of multipliers (ADMM) for deep neural networks training with sigmoid-type activation functions (called sigmoid-ADMM pair), mainly motivated by the gradient-free nature of ADMM in avoiding the saturation of sigmoid-type activations and the advantages of deep neural networks with sigmoid-type activations (called deep sigmoid nets) over their rectified linear unit (ReLU) counterparts (called deep ReLU nets) in terms of approximation. In particular, we prove that the approximation capability of deep sigmoid nets is not worse than deep ReLU nets by showing that ReLU activation fucntion can be well approximated by deep sigmoid nets with two hidden layers and finitely many free parameters but not vice-verse. We also establish the global convergence of the proposed ADMM for the nonlinearly constrained formulation of the deep sigmoid nets training to a Karush-Kuhn-Tucker (KKT) point at a rate of order O(1/k). Compared with the widely used stochastic gradient descent (SGD) algorithm for the deep ReLU nets training (called ReLU-SGD pair), the proposed sigmoid-ADMM pair is practically stable with respect to the algorithmic hyperparameters including the learning rate and initial schemes. Moreover, we find that to approximate and learn simple but important functions the proposed sigmoid-ADMM pair numerically outperforms the ReLU-SGD pair.