科学研究
首页 >> 科学研究 >> 学术报告 >> 正文
学术报告(9月2日):浅谈序列生成模型中的随机性

学术报告

报告题目:浅谈序列生成模型中的随机性

报 告 人:张民 教授

报告时间:202292日(周五)9:00

腾讯会议:943705860

会议密码:123456

主办单位:信息与控制工程学院

报告摘要:

近五年来,基于Transformer的序列生成模型在语言建模和其它任务上取得了显著性能提升,如机器翻译、摘要生成、代码生成等。训练阶段各种类型的随机性在这些序列生成模型所展现的强大任务适应性和取得的显著效果提升中起到至关重要的作用。主要的随机性类型可以简单概括为两类:1)模型优化所涉及的多粒度辅助随机性,如数据(word-drop)、神经元(dropout)、网络结构(layer-drop)等随机性;2)(条件)语言模型建模所基于的随机性,如随机掩码语言模型目标(MLM/CMLM)。针对以上两类随机性,本次报告介绍如何设计简单且高效的约束策略,包括模型输出空间的约束方法(R-Drop)和二次自适应掩码策略。相关方法已经在自回归(AT)和非自回归(NAT)两类主流生成范式、多个代表性序列生成任务(如语言模型、机器翻译、摘要生成、代码生成、NLU、图像)、数十个数据集上取得显著效果提升,部分成果成功应用于产业界。

报告人简介:

张民,博士,哈尔滨工业大学(深圳)教授,特聘校长助理,计算与智能研究院院长。苏州大学计算机(软件)学院院长。国家杰出青年基金获得者,国家“百千万”人才,国家级有突出贡献中青年专家,鹏城孔雀计划A类人才,江苏省双创人才和双创团队首席科学家,享受国务院政府特殊津贴。长期从事自然语言处理、知识图谱和人工智能研究。发表论文200余篇,专著2部,主编英文论著(论文集)16本,获部级科技进步奖4项。担任IEEE/ACM T-ASLPComputational LinguisticsJournal of Natural Language EngineeringSCIENCE CHINA Information SciencesJournal of Computer Science and Technology (JCST)Machine Intelligence Research (MIR)、《中国科学:信息科学》、《软件学报》和《自动化学报》编委。

 



上一篇:学术报告(9月2日):机器人在线视觉感知

下一篇:学术报告(8月31日):Learning to Locate Software Bugs

扫码关注