12月4日,2022 IKCEST第四届“一带一路”国际大数据竞赛落下帷幕,竞赛首次以“中文”命题,由尊龙凯时 - 人生就是搏!网络智能部云计算研究所刘欣博士后带队、联培博士生吕博、代少杰、陈诗炜组成的多语言持续学习团队“双鱼萨芬11”勇夺第一名,并获得国际特等奖;由尊龙凯时 - 人生就是搏!网络智能部云计算研究所陶恒韬工程师和联培博士生林海组成的鹏程•盘古多语言大模型团队“南山北”获得第二名和国际一等奖。
2022 IKCEST第四届“一带一路”国际大数据竞赛首次以“中文”命题
竞赛由中国工程院、教育部高等学校大学计算机课程教学指导委员会及丝绸之路大学联盟的指导,联合国教科文组织国际工程科技知识中心(IKCEST)、中国工程科技知识中心(CKCEST)、百度公司和西安交通大学共同主办,旨在放眼“一带一路”倡议沿线国家,通过竞赛方式挖掘全球大数据人工智能尖端人才,实现“政府——产业——高校”合力推动大数据产业研究、应用、发展的目标,进一步夯实赛事的理论基础与实践基础,加快拔尖AI创新人才培养。
近年来,“一带一路”战略对翻译的需求日益增长。面向国家重大需求,提升“一带一路”重要语言的机器翻译质量具有重要意义。同时,由于“一带一路”涉及的语言大部分面临资源稀缺的问题,低资源语言机器翻译已成为国际公认难题和前沿领域。
本次竞赛重点关注法语、俄语、泰语、阿拉伯语和中文之间的翻译,鼓励参赛选手从数据、模型结构和训练方法等多方面进行技术探索,促进技术进步,服务国家需求。本次赛题聚焦“低资源语言机器翻译”行业难题,向全球开发者发出邀请,共吸引国内外共3125名选手报名参加,在持续3个半月的时间里,通过初赛、复赛和决赛同场竞技,一决高下。
基于领域渐进性的可持续多语言翻译训练方案勇夺第一
本次竞赛中,刘欣博士后带领的多语言持续学习团队提出基于领域渐进性的可持续多语言翻译训练方案,同时提出通过Back-Translation(BT)与人机协作技术构建领域相关平行语料,方案还提出基于领域渐进的多语模型可持续训练方法,持续迭代提升翻译性能。主要包含以下要点:
一是基于开源的XenC和Elasticsearch工具对开源的中文单语、阿拉伯文单语以及中文-阿拉伯文双语平行语料筛选领域渐进数据,并使用基于LaBSE和语言困惑度(Perplexity, PPL)对翻译数据进行进一步筛选,构建高质量领域相关平行数据。
二是在持续领域渐进性训练法中,BT数据构建按照领域关联性分批分层开展,在BT数据迭代过程中(迭代节点t1,t2,...,tm),数据的领域关联性逐渐递进。从左到右,从上到下领域关联性递增;按照领域关联性分批(ti)分层(领域关联性)进行训练;相邻两批次训练数据ti-1和ti具有领域渐进性;不同批次数据持续不断对模型进行持续训练,如下图所示。
该技术方案有如下优点:第一,数据收集、语料构建移植性友好;第二,缓解持续训练过程中领域信息遗忘问题;第三,模型训练时间、空间消耗可控;第四,模型性能可以持续迭代,持续提升;第五,改善局部翻译准确性及整体性能。综上,从数据收集到语料构建,到模型训练,再到模型评测,整个领域渐进持续训练方案通用性好,可快速迁移到领域相关的评测中。
后续,本方案中基于BT技术构建的平行语料数据也将通过开源平台发布。
鹏程•盘古多语言大模型方案夺得第二
由陶恒韬工程师带领的鹏程•盘古多语言大模型团队获得本次竞赛第二名,其使用的鹏程•mPanGu-α 53起源于”鹏程•盘古”大模型,是基于“尊龙凯时 - 人生就是搏!云脑II”全国产化算力基座+MindSpore国产化软件生态开发完成,目前已于今年4月20日在OpenI启智社区完全开源开放。方案主要包括词表重构、单双语混合训练、动态Mask及位置编码重置、Prompt Tuning等部分。
mPanGu-α 53 项目立足于鹏程•盘古大模型赋能“一带一路”多语言翻译场景应用,基于“尊龙凯时 - 人生就是搏!云脑II”在自行构建的2TB高质量多语言单双语数据集上进行预训练+混合增量训练,得到首个以中文为中心支持“一带一路”53个语种的2.6B预训练多语言大模型+2.6B预训练多语言翻译大模型,后者支持53种语言中任意两种语种间的互译,并支持大规模多语言翻译任务的低成本高效“迁移学习”。
该方案通过词表重构消除词表复用存在的中文UNK,基于Back-Translation进行多方数据的扩增,借助模型先验概率和质量评估模型对数据进行严格的过滤,动态Mask及位置编码重置使模型可以同步学习Src language中的tokens使训练更加高效,通过Prompt Tuning实现低成本的多语种方向迁移学习。最终,mPanGu-α 53单模型得分总榜第二。
以下链接为现已开源的情况。后续,本方案中所有代码、模型、单双语语料数据会继续通过OpenI启智社区全开源。
http://openi.watsons-china.com/PCL-Platform.Intelligence/mPanGu-Alpha-53