2020年充满了起起落落。
对每个人来说,“2020”都是坎坷坎坷; 对于“致力于提供全球领先的翻译技术和服务”的Volctrans来说,“2020”同时意味着创新和机遇。 我们从未停止前行,不断尝试,只为为全球超过1亿用户提供更好的翻译体验。
团队每一位成员的努力,也让火山翻译在这不平凡的一年交出了一份满意的答卷:我们不断优化翻译服务和产品,逐步提升翻译能力,坚持探索前沿翻译技术。
火山翻译克服困难,希望以自己微薄的力量,为2020年的黑夜带来一点星光。
凭借火山翻译团队多年的技术积累、专业的产品设计和细致的解决方案支持,火山翻译提供了火山同声传译、火山翻译API、火山翻译工作室、浏览器翻译插件等一系列矩阵产品。
优秀的视频翻译工具:Volcano Translation Studio
2020年3月,我们研发的全新AI视频翻译工具——火山翻译工作室V0.1上线,进入用户内测阶段。
火山翻译工作室借助先进的自动语音识别和神经机器翻译技术,为视频创作者提供专业高效的视频“转录-转译-翻译”全流程服务,将视频翻译过程中的三项繁琐工作合二为一”功能齐全。产品支持交互式翻译、术语干预等多种辅助翻译功能,使字幕翻译更加个性化,同时提高翻译效率。该工具创造了更好的双语字幕制作环境,大大降低了双语字幕的制作成本,并且帮助用户轻松解决视频内容的跨语言交流问题。
火山翻译工作室:自动生成双语字幕,支持交互式翻译和术语干预等功能
现场和会议翻译工具:火山同声传译
2020年10月,我们发布了智能同声传译产品——火山同声传译,致力于为线下会议和线上直播提供实时机器同声传译服务。 过去一年,火山同声传译服务并参与了飞书未来无限大会、知名艺术家村上隆中国首场直播、第四届CTDC首席技术官领袖峰会等多场直播和会议。
为保证实时翻译的准确性和实时字幕的最佳显示效果,霍山同声传译提供“全屏逐字字幕显示解决方案”和“影院级字幕修复解决方案”以满足需求的不同场景。 产品包括55种语言翻译、中英日听写识别等高性能服务能力。 借助人工保障方案,实时校准保证字幕的准确性和流畅性。 独家“VFT现场自适应服务”让翻译算法的翻译风格在风格等方面更好地满足会议需求,为直播字幕的展示效果提供更好的路径。
日本知名艺术家村上隆中国首场直播,火山同声传译提供智能同声传译字幕
在线精准翻译平台:火山翻译网页版
11月,火山翻译网站(translate.volcengine.cn)正式上线,推出中英双语版,整合了PC端和WAP端的在线翻译工具及其他相关产品的介绍页面。
在线翻译平台支持55种语言的全语种翻译,一次最多可翻译2000个字符。 网页提供“语言自动检测”、“一键翻译复制”、“双语对比查看”等功能,让用户高效获得跨语言翻译服务。
产品介绍页面系统展示了火汉翻译的“机器翻译API”、“视频字幕翻译”、“智能同声传译”等优质产品。 火山翻译面向B端客户的相关服务能力也已融入火山引擎的智能应用板块,为更多客户提供企业级技术产品和解决方案。
火山翻译官网在线翻译页面支持55种语言的全语种翻译
强大的翻译应用离不开火山翻译团队算法科学家和工程师数年来的精诚合作。 在日均超过1亿次的完整服务调用基础上,团队从未停止追求支持更多语言、提供更优质翻译服务的追求。
语言扩展,支持55种语言互译
今年我们继续努力扩充翻译语言,从最初的几种语言发展到现在支持55种语言、2970种语言方向之间的互译。 其中包括马其顿语、斯洛文尼亚语、乌尔都语、旁遮普语和其他小语种。
在训练机器翻译模型的过程中,我们成功翻越了“三座大山”:
1. 进入冷门的翻译领域
某些翻译领域的稀有性加剧了模型训练的难度,尤其是在“泛娱乐场景”等高度不规范、娱乐性强的翻译领域。 对此,火汉翻译综合运用“NMT领域适配、领域数据增强、大模型学习、多领域模型”等更多领域的方法,结合各领域特点进行优化,攻克算法优化障碍引起领域内不受欢迎的问题。
2.部分语言缺乏并行数据
“语言数量多,小语种缺乏平行语料库”一直是机器翻译模型训练工作的痛点。 在并行数据稀缺的情况下,火山翻译工程师利用基于“自研Fluid平台”的半监督训练系统进行多语种预训练工作,成功构建“多语种”翻译模型,克服缺乏并行数据。 从而造成模型效果不佳、翻译性能不达标等技术问题。
基于Fluid平台的半监督训练
分层建模
3、服务量大
“在企业运营中,资源永远是不够的。” 在算法训练和优化过程中,由于GPU资源紧缺,需要训练的语言数量巨大。 火山翻译团队迫切需要提高 GPU 的利用率来应对高难度挑战。 . 对此,团队采用“多语言翻译模型”整合资源,同时用多种长尾语言进行训练,大大提高了资源利用率,成功满足了大量高阶需求服务。
专业测评,火山翻译荣获国际大赛冠军
不断突破语言性能天花板,不断迭代提升每一种语言的翻译质量,在国际舞台上展现出良好的竞争力。
在2020年国际机器翻译大赛(WMT20)中,火山翻译团队在39支参赛队伍中突围而出,以显着优势夺得“汉英”重点语言翻译大赛的世界冠军。 此外,火山翻译还在“德语-英语”、“德语-法语”、“英语-高棉语”和“英语-普什图语”语言到机器翻译项目中获得冠军,并在平行语料库过滤两个项目中夺冠普什图语和高棉语对齐项目的第一个。
在历届比赛中,“汉英”翻译任务是参赛队伍最多、竞争最激烈的机器翻译任务之一。 火山翻译作为一支年轻的团队,参加了“无限制场景”的比赛——即在给定测试集的情况下,允许使用任何数据和方法来探索翻译效果的极限。 同时,主办方还推出了四款权威的在线机器翻译商业系统(Online-A、G、Z、B)进行对比。 这种比赛模式被认为是“最能体现翻译团队数据和算法综合能力”的场景。 经过大赛组委会邀请的语言专家系统评审,火山翻译最终以明显优势夺得冠军。
WMT20中英翻译最高分,霍山翻译排名第一。 Ave.z代表Human Evaluation Standardized Score,这是目前机器翻译最公认的指标。
与“中英”语言相比,“德英”语言是WMT比赛的传统项目之一,也是最受欧洲国家队关注的比赛语言。 在“德英”比赛的最后人工评测环节,霍汉翻译依然表现出突出的技术水准,脱颖而出,获得第一名。 最终,国际机器翻译大赛组委会对团队给予了高度评价,“作为新参赛者,火山翻译的表现尤为出色,超越了众多传统团队。”
下图展示了 Volcano Translate 和 Google Translate 在各语言测试集上的性能对比。 横轴为语言信息,纵轴为BLEU值的差异。 从图中的数据可以看出,火山翻译模型的自动评价结果在左侧棕色区域所代表的大部分语言中都高于谷歌翻译。 其中,“日-中”、“印-英”、“中-日”三种语言取向比谷歌翻译高出10多个BLEU值。 (注:BLEU全称Bilingual Evaluation Understudy,是目前应用最广泛的机器翻译自动评价指标)
火山翻译和谷歌翻译在各语言测试集上的表现对比
在英英互译方面,火山翻译有72%的自动机器评测结果优于谷歌翻译。 火山翻译也在不断追求更多语种的优质表现,力求为全球更广泛的用户群体提供满意的翻译服务。
2020年最后三天,火山翻译日均翻译字数达百亿字,日均翻译调用量达1.38亿次,稳定服务飞书、今日头条等数十家业务。 火山翻译可通过公有云、私有化部署等多种形式接入,支持垂直行业模型快速定制部署,满足各垂直行业个性化翻译需求。
在技术上精益求精,不断刷新高度,是每一位火山翻译科学家和工程师不懈追求的目标。 支持的语言更多,服务的客户更多——业务的进步需要更强的支持能力。 无论是模型还是推理能力,都需要不断的创新和不断的投入。
打造多语种预训练新范式mRASP
新的多语言翻译范式mRASP(multilingual Random Aligned Substitution Pre-training)的核心思想是打造“机器翻译界的BERT模型”,即通过预训练技术进行大规模训练,然后对特定语言进行微调,即可以达到领先的翻译效果。 其在 32 个语言对上预训练的统一模型在至少 47 个翻译测试集上取得了显着的整体改进。 在火山翻译中,这项技术得到了广泛的应用,并在实际业务中得到了实践检验。
以BERT为代表的预训练范式几乎横扫所有文本理解任务,成为各种NLP任务的基石。 与以往的机器翻译范式不同,mRASP 为机器翻译预训练和微调建立了成功的路径。
mRASP主要针对机器翻译任务场景设计,具有三大应用优势:
1. 打破资源场景限制
不管平行双语资源的水平如何,都可以有提高。 对于资源丰富的语言,例如标准的英法翻译任务,使用 mRASP 仍然可以显着提高 4000 万平行句的训练,达到 44.3 的 BLEU 值。 在低资源语言中,mRASP 的表现令人惊讶。 在极端情况下,只需要 10,000 句训练数据。 经过10分钟的微调训练,就可以得到一个不错的翻译系统。
2. 打破语言数量限制
任何语言的翻译,不管是孟加拉语到古吉拉特语,还是印地语到菲律宾语,只要是地球上的语言,都可以直接用mRASP微调,效果令人期待。
3、资源消耗低
相较于其他“军备竞赛”预训练玩法上百张卡牌,mRASP更加平民化,只需要8张卡牌训练一周即可完成。 简单的说,mRASP可以理解为机器翻译领域的轻量级BERT。 只要是机器翻译任务,使用mRASP对于任何场景或语言都可能有意想不到的收获。
mRASP基于Transformer框架,使用多语言对的平行语料建立预训练模型
高性能序列推理引擎LightSeq
LightSeq 是一个极快且高性能的序列推理引擎,同时支持多种功能。 深度优化了基于Transformer的序列特征提取器(Encoder)和自回归序列解码器(Decoder)。 早在 2019 年 12 月就已开源,并应用于包括火山翻译在内的众多业务和场景。 据了解,这应该是业界第一个全面支持Transformer、GPT等多种模型高速推理的开源引擎。
LightSeq可应用于机器翻译、自动问答、智能写作、对话回复生成等诸多文本生成场景,大大提升在线模型推理速度,提升用户体验,为企业降低运营服务成本.
与其他开源时序推理引擎相比,LightSeq具有以下优势:
1. 高性能
LightSeq 推理非常快。 以翻译任务为例,LightSeq相比TensorFlow可以实现高达14倍的加速。 同时,它领先于其他开源序列推理引擎,例如,它可以比 Faster Transformer 快 1.4 倍。
2. 支持多种功能机型
LightSeq支持BERT、GPT、Transformer、VAE等多种模型,支持beam search、diverse beam search、sampling等多种解码方式。
3.简单易用,与TensorFlow、PyTorch等深度学习框架无缝对接
LightSeq通过定义模型协议中翻译,支持灵活导入各种深度学习框架训练的模型。 同时包含开箱即用的端到端模型服务,即无需编写一行代码即可部署高速模型推理,并灵活支持多级复用。
变压器解码图
镜像生成翻译模型 MGNMT
镜像翻译生成模型MGNMT(Mirror-Generative Neural Machine Translation)旨在解决机器翻译在缺乏双语并行数据的场景下的应用问题。 已应用于火山翻译多语言方向的翻译模型。 MGNMT通过镜像生成方法,利用镜像翻译方向的相关性,同时将翻译模型和语言模型结合起来,使模型相互促进,从而显着提高翻译质量。
目前,机器翻译模型需要在大量的双语并行数据上进行训练才能获得良好的性能。 然而,在许多低资源语言或领域场景中中翻译,双语并行数据非常稀缺。 在这种情况下,双语平行数据非常宝贵,需要更有效地利用; 而由于双语数据的稀缺性,充分利用大规模的非平行单语数据也非常重要。
为了最大限度地有效利用双语数据和单语数据,MGNMT采用了以下关键技术:
1、通过一个共享的隐变量,将两个翻译方向的翻译模型和两种语言的语言模型组合在同一个概率模型中。
2. 在训练过程中,两个翻译方向相互促进。 通过隐变量对相互翻译的双语数据的语义等价性进行建模,使得两个翻译方向的模型可以更好地利用双语平行数据; 同时,通过隐藏变量作为中间桥梁,任何一方的单语数据都可以同时帮助两个翻译方向的模型,从而更好地利用单语数据。
3.解码时,语言模型和翻译模型相互配合。 前向翻译模型和目标语言模型首先使用beam search进行协同解码,得到多个候选翻译; 然后反向翻译模型和源语言语言模型对候选翻译进行排序,并选择最忠实于原文语义的最佳翻译。
在低资源的情况下,MGNMT 在多个数据集上取得了最好的翻译结果。 与传统的Transformer模型相比,Transformer结合回译(Back-Translation)进行数据增强以利用单语数据的方式,结果显示出相对一致且显着的改进。
MGNMT模型示意图。 MGNMT 同时为两个翻译方向和两个语言模型建模翻译模型。
一路走来,火山翻译所提供的翻译产品、掌握的翻译能力、探索的翻译技术,都是火山翻译团队精益求精、不断创业的结果。 更好的跨语言体验。 我们付出了巨大的“大”努力,着眼于“长远”的眼光,只为让世界“更小”,让不同的文化更“近”。
2020年是不平凡的一年。
这一年,我们和你们一样,步履蹒跚,却始终坚定不移。 我们和您一样,经历过风风雨雨,但我们充满希望。 火山翻译将永远是您辛勤耕耘的坚强后盾,孜孜不倦地为不同语言提供最佳“解决方案”。
或许,每个人对这一年都有不同的“翻译”和“理解”,但今年最好的“翻译”应该在每一位火山译者的心中。
从冬天到春天,我们陪你去看更大的世界。