2月20日,由小牛翻译主办,东北大学自然语言处理实验室协办的小牛翻译直播(NiuTrans Talk)第5期如约与大家见面了。本次邀请东北大学自然语言处理实验室阿卜杜热西提·热合曼博士做客小牛翻译直播间,为聚焦机器翻译前沿技术的各位朋友分享《如何将翻译记忆高效融入神经机器翻译:一种In-context Learning方法》。
翻译记忆的引入是机器翻译领域中的一个重要方向,该技术的目的是通过利用先前翻译的知识来提高机器翻译的效率和质量。近些年来,翻译记忆技术已广泛应用于各种机器翻译系统,成为提高机器翻译效率和质量的关键因素。但是,现有的将翻译记忆融入神经翻译系统的方法一般需要更改翻译模型结构,或引入额外的模型。这使得在现实场景中采用翻译记忆技术的代价较高。能否在不修改模型的基础上直接引入翻译记忆,是需要进一步研究和探索的问题之一。
本次直播中,阿卜杜热西提博士根据自身研究经验对上述问题进行了回答,首先介绍了何为翻译记忆,以及神经机器翻译的概念;之后对翻译记忆融合机器翻译的实际意义方面进行了详细的说明,然后对翻译记忆融入神经机器翻译的方法进行了概要性的介绍,最后介绍了研究小组在AAAI 2023发表的翻译记忆提示神经机器翻译的工作。博士的讲解让观看的网友对翻译记忆以及前沿的工作方向有了初步的了解。
之后的Q&A环节,包括B站、知乎、抖音、视频号、微博在内众多平台的网友也围绕针对翻译记忆数据质量低的解决方法、增量训练的数据构造、翻译记忆未来的发展趋势等问题进行提问,阿卜杜热西提博士对网友的提问进行了详细的解答,引发了各平台网友的热烈讨论。
Q1:如果翻译记忆数据质量较低,是否会对NMT模型性能造成较大影响?
A1:其实这个问题我们做过一些小实验,比如说对于相似度比较低的那些TM,我们能不能用机器翻译的结果来替换。也就是说,与其给它提供一个相似度很低的句子,我们能不能提供一个源语句子和机器翻译的翻译结果。但是从实验结果来看,这个机器翻译的结果提供的信息,会导致它的BLEU值下降。从这可以看出,这种融合方法,其实对翻译记忆中句对的质量要求还是比较高的。也就是说,你可以提供一个相似度比较低的句子,但是最好不要提供质量比较低的,甚至是错误的翻译案例。
Q2:强模型强继续增量式训练好,还是用这个增量训练的数据做翻译记忆好?
A2:还是回到我们提出的这种方法,强模型的话,它的训练数据量已经是很大了。如果用一个TM这个规模比较小的,我们重新训练的话,它对这个整个模型的影响不太明显,或者说它对翻译其实就是一个fine tuning的过程,相对于整个的训练数据,这个海量的数据,用少量的训练数据对它进行增量训练,可能对模型的影响不太大。但是我在直接解码的时候,把它当做额外的信息输入的话,它的性能可能会得到进一步的提升。
Q3:我的模型总是一换翻译场景,翻译质量下降的比较多,应该如何设计翻译记忆以适应不同的翻译场景,并根据不同的需求进行调整?
A3:我们在刚刚也提到了领域适应能力的问题,模型是在一个通用的领域训练的,我们不可能把所有的领域数据都找出来进行训练,实际情况是我们先用一个通用领域的数据去训练一个模型,然后看待翻译的句子,它属于哪个领域,我们就搜集相关领域的数据,然后用它来构建我们的TM。在翻译的时候,我从相应的领域里面抽取一些样例,用这些样例来获取一些额外的领域知识。这样的话我们模型就很快能对于这个新的领域适应了。
Q4:未来翻译记忆技术的发展趋势是什么?
A4:从翻译记忆现有的一些挑战来看,就比如说现有的方法,虽然可以解决低相似度的问题,但是现实情况是,训练这种低相似度的问题还是需要专用的NMT模型。实际应用时,还需要额外训练专用的模型。但像我们提出的这种方法,它就不需要额外训练模型。同时,我们的方法对低相似度的情况还是不太能去提升翻译质量,甚至会带来一些噪音的问题。所以说对于TM相似度低的问题,如何能够在代价非常低的情况下把它引入进来,还能有效的提升翻译质量,这是一个需要解决的问题,这是一个研究趋势。还有一个就是现在大模型时代到来,像现在比较火的ChatGPT之类的。未来的趋势可能会利用大模型强大的语言理解能力去融入翻译记忆,也可以规避它带来的一些噪音。所以说大模型的应用也是一个趋势。
Q5:如果翻译记忆中存在一词多义的情况应该如何处理?
A5:因为自然语言是非常灵活的,这种一词多义的情况很容易出现。但是在机器翻译的时候,我们给它的翻译句子可能是单个句子,单个句子不具备上下文信息,然后我们给它提供TM信息的时候,可以扩大搜索范围,比如给它提供一些上下文信息。比如说前一句、后一句之类一些额外的信息,会一定程度上缓解这种这种问题。
以上就是直播问答环节的全部内容,更多关于报告的详细内容可点击下方阅读原文访问机器翻译学堂(https://school.niutrans.com)观看直播回放。
NiuTrans Talk,是由小牛翻译主办的,每期将邀请到不同领域的机器翻译专家进行讲解,分享行业干货知识,带你走进机器翻译的世界。更多精彩内容尽在 NiuTrans Talk ,想了解更多有关机器翻译的内容请关注机器翻译学堂或小牛翻译官方微博号,与小牛翻译一起探讨机器翻译技术。
专注于机器翻译技术基础研究50年,拥有百余人的机器翻译产学研团队,自主研发以中文为核心的NiuTrans机器翻译系统,支持388种语言随心互译。通过丰富的应用与功能,为用户提供机器翻译服务全栈式解决方案,致力于为机器翻译产业化应用提供基础平台,帮助企业级用户在国际业务中消除语言障碍。