自动翻译五年来的大跃进

通过计算机完成笔译和口译的自动翻译(又称机器翻译)的性能一直在提高。巧妙运用人工智能(AI)的第3代翻译算法已经问世,根据每个用户设定翻译模式的机制也取得进展,翻译的准确度显著提高。5年后有望实现媲美同声传译的性能。

随着自动翻译消除语言的障碍,与外籍劳动者等海外人才沟通、跨境平台业务的拓展都将更加顺畅。

2016年,谷歌在网上公开了采用深度学习的“神经机器翻译(NMT)”。在同一时期,微软和日本情报通信研究机构(NICT)也采用了神经机器翻译。此前主流的统计机器翻译采用以大量数据生成的统计模型,与之相比,神经机器翻译的准确度飞跃式提高。

初期的神经机器翻译采用了属于深度学习之一的“递归神经网络(RNN)”。后来问世的是被称为“Transformer”的第2代算法,自2019年前后开始普及。

Transformer纳入了名为“注意力机制”的AI机制,在确定一个单词的翻译结果时,会考虑应关注其前后的哪些单词。

2017年涉足AI翻译服务的德国初创企业开发的“DeepL”也采用第2代神经机器翻译。虽然没有官方的比较数据,但DeepL被认为在日英互译方面达到了媲美谷歌最新版的顶尖水平准确度。日本情报通信研究机构在继Transformer之后的第3代神经机器翻译算法开发上拿出了时间表,最快将在2020年秋季引进。新技术的详细情况没有透露,但研究员隅田英一郎表示,“和Transformer相比,获得的译文和人工翻译范例的偏差更小更自然,学习数据量也有所减少”。新一代神经机器翻译的研究在海外也取得进展,隅田表示“主要的参与企业或将在明年之前改为新算法”。

要提高自动翻译的准确度,与改进AI算法同样重要的是大量收集让AI学习的日英对译数据等。

日本情报通信研究机构2017年推出了“翻译银行”业务,在翻译系统使用条件方面提供优待,作为交换要求企业等提供对译数据。截至目前,与丰田、药企阿斯利康(AstraZeneca)、SMBC日兴证券和日本交易所集团等超过70家企业与团体签署了数据提供协议。目标是收集1亿句规模的对译数据。

不仅是按行业和领域制作翻译系统,以企业和业务种类为单位优化翻译系统的“定制”服务也受到关注。谷歌免费提供通用的“谷歌翻译”,另一方面,通过作为战略领域的云服务“AutoML”,积极拓展按用户定制翻译功能的业务。

开发翻译系统的日本Rozetta最近发布了强化了定制功能的翻译系统“T-3MT”。通过自主开发的算法提高了对历史译文进行再利用的“翻译存储器”功能。该公司首席执行官五石顺一表示,“通过少量的数据学习,不仅可以定制公司内部经常使用的单词和用语,还可以定制文体和表达方式”。

Rozetta与日本飞岛建设合作开发出了内置上述翻译功能的面向建设行业的穿戴式系统。该系统支持语音识别,在建设现场等,可以让工作人员用外语接收指示,与外国劳动者边沟通边开展工作。

语音翻译系统作为能在海外旅行目的地、外国患者增多的医疗机构等很多场合发挥作用的技术而备受关注。

在语音翻译领域领跑的是日本情报通信研究机构,该机构开发出了可在智能手机等设备上使用、支持31种语言的语音翻译APP“VoiceTra”。该机构向企业进行技术转移,日本Sourcenext的翻译机“POCKETALK”等产品问世。日本警察厅也采用了情报通信研究机构的系统,全日本的警察将配备约5万台终端。

美国苹果宣布,6月发布的新一代操作系统“iOS14”中配备日语、英语、中文、阿拉伯语等多语言间的语音翻译APP。据悉在没有网络的地方也可以使用。

称得上自动翻译最终形态的是同声传译系统。同传要在说话者发言的过程中判断开始翻译的时机以及考虑上下文等,需要具备交替传译所没有的高超技术。2020年度,情报通信研究机构等参与制定的日本总务省“全球交流计划2025”启动,将用5年时间开发能达到实用水平的同传系统。