专栏/直播回顾:分享如何将翻译记忆高效融入神经机器翻译:一种In-context Learning方法

直播回顾:分享如何将翻译记忆高效融入神经机器翻译:一种In-context Learning方法

2023年02月24日 05:25--浏览 · --点赞 · --评论
小牛翻译NiuTrans
粉丝:1201文章:125

2月20日,由小牛翻译主办,东北大学自然语言处理实验室协办的小牛翻译直播(NiuTrans Talk)第5期如约与大家见面了。本次邀请东北大学自然语言处理实验室阿卜杜热西提·热合曼博士做客小牛翻译直播间,为聚焦机器翻译前沿技术的各位朋友分享《如何将翻译记忆高效融入神经机器翻译:一种In-context Learning方法》。 

翻译记忆的引入是机器翻译领域中的一个重要方向,该技术的目的是通过利用先前翻译的知识来提高机器翻译的效率和质量。近些年来,翻译记忆技术已广泛应用于各种机器翻译系统,成为提高机器翻译效率和质量的关键因素。但是,现有的将翻译记忆融入神经翻译系统的方法一般需要更改翻译模型结构,或引入额外的模型。这使得在现实场景中采用翻译记忆技术的代价较高。能否在不修改模型的基础上直接引入翻译记忆,是需要进一步研究和探索的问题之一。

本次直播中,阿卜杜热西提博士根据自身研究经验对上述问题进行了回答,首先介绍了何为翻译记忆,以及神经机器翻译的概念;之后对翻译记忆融合机器翻译的实际意义方面进行了详细的说明,然后对翻译记忆融入神经机器翻译的方法进行了概要性的介绍,最后介绍了研究小组在AAAI 2023发表的翻译记忆提示神经机器翻译的工作。博士的讲解让观看的网友对翻译记忆以及前沿的工作方向有了初步的了解。

之后的Q&A环节,包括B站、知乎、抖音、视频号、微博在内众多平台的网友也围绕针对翻译记忆数据质量低的解决方法、增量训练的数据构造、翻译记忆未来的发展趋势等问题进行提问,阿卜杜热西提博士对网友的提问进行了详细的解答,引发了各平台网友的热烈讨论。

Q1:如果翻译记忆数据质量较低,是否会对NMT模型性能造成较大影响?

A1:其实这个问题我们做过一些小实验,比如说对于相似度比较低的那些TM,我们能不能用机器翻译的结果来替换。也就是说,与其给它提供一个相似度很低的句子,我们能不能提供一个源语句子和机器翻译的翻译结果。但是从实验结果来看,这个机器翻译的结果提供的信息,会导致它的BLEU值下降。从这可以看出,这种融合方法,其实对翻译记忆中句对的质量要求还是比较高的。也就是说,你可以提供一个相似度比较低的句子,但是最好不要提供质量比较低的,甚至是错误的翻译案例。

Q2:强模型强继续增量式训练好,还是用这个增量训练的数据做翻译记忆好

A2:还是回到我们提出的这种方法,强模型的话,它的训练数据量已经是很大了。如果用一个TM这个规模比较小的,我们重新训练的话,它对这个整个模型的影响不太明显,或者说它对翻译其实就是一个fine tuning的过程,相对于整个的训练数据,这个海量的数据,用少量的训练数据对它进行增量训练,可能对模型的影响不太大。但是我在直接解码的时候,把它当做额外的信息输入的话,它的性能可能会得到进一步的提升。

Q3:我的模型总是一换翻译场景,翻译质量下降的比较多,应该如何设计翻译记忆以适应不同的翻译场景,并根据不同的需求进行调整?

A3:我们在刚刚也提到了领域适应能力的问题,模型是在一个通用的领域训练的,我们不可能把所有的领域数据都找出来进行训练,实际情况是我们先用一个通用领域的数据去训练一个模型,然后看待翻译的句子,它属于哪个领域,我们就搜集相关领域的数据,然后用它来构建我们的TM。在翻译的时候,我从相应的领域里面抽取一些样例,用这些样例来获取一些额外的领域知识。这样的话我们模型就很快能对于这个新的领域适应了。

Q4:未来翻译记忆技术的发展趋势是什么?

A4:从翻译记忆现有的一些挑战来看,就比如说现有的方法,虽然可以解决低相似度的问题,但是现实情况是,训练这种低相似度的问题还是需要专用的NMT模型。实际应用时,还需要额外训练专用的模型。但像我们提出的这种方法,它就不需要额外训练模型。同时,我们的方法对低相似度的情况还是不太能去提升翻译质量,甚至会带来一些噪音的问题。所以说对于TM相似度低的问题,如何能够在代价非常低的情况下把它引入进来,还能有效的提升翻译质量,这是一个需要解决的问题,这是一个研究趋势。还有一个就是现在大模型时代到来,像现在比较火的ChatGPT之类的。未来的趋势可能会利用大模型强大的语言理解能力去融入翻译记忆,也可以规避它带来的一些噪音。所以说大模型的应用也是一个趋势。

Q5:如果翻译记忆中存在一词多义的情况应该如何处理?

A5:因为自然语言是非常灵活的,这种一词多义的情况很容易出现。但是在机器翻译的时候,我们给它的翻译句子可能是单个句子,单个句子不具备上下文信息,然后我们给它提供TM信息的时候,可以扩大搜索范围,比如给它提供一些上下文信息。比如说前一句、后一句之类一些额外的信息,会一定程度上缓解这种这种问题。

以上就是直播问答环节的全部内容,更多关于报告的详细内容可点击下方阅读原文访问机器翻译学堂(https://school.niutrans.com)观看直播回放。

NiuTrans Talk,是由小牛翻译主办的,每期将邀请到不同领域的机器翻译专家进行讲解,分享行业干货知识,带你走进机器翻译的世界。更多精彩内容尽在 NiuTrans Talk ,想了解更多有关机器翻译的内容请关注机器翻译学堂或小牛翻译官方微博号,与小牛翻译一起探讨机器翻译技术。


专注于机器翻译技术基础研究50年,拥有百余人的机器翻译产学研团队,自主研发以中文为核心的NiuTrans机器翻译系统,支持388种语言随心互译。通过丰富的应用与功能,为用户提供机器翻译服务全栈式解决方案,致力于为机器翻译产业化应用提供基础平台,帮助企业级用户在国际业务中消除语言障碍。


投诉或建议

玻璃钢生产厂家铜仁商场美陈景观商场新年美陈方案上海主题商场美陈哪家好玻璃钢雕塑的性能保山玻璃钢雕塑厂家情人节商场情话美陈浙江临沂玻璃钢花盆制作厂家商场美陈气球方案新余玻璃钢雕塑定做价格玻璃钢雕塑定做厂家电话沈阳定制玻璃钢雕塑联系方式珠海玻璃钢樱桃雕塑云南玻璃钢动物雕塑出厂价格鹤山玻璃钢雕塑价格门头玻璃钢雕塑怎么买商场美陈 风车铜川玻璃钢雕塑价格批发绥化玻璃钢雕塑壁画玻璃钢雕塑耐用寿命玻璃钢人物雕塑报价玻璃钢造型雕塑ppt四会玻璃钢雕塑翻模户外玻璃钢花盆什么材料气球商场美陈装饰哪家专业北京常见商场美陈哪里有玻璃钢景观雕塑专业户外玻璃钢雕塑造型上饶玻璃钢雕塑定做价格四川中庭商场美陈销售公司玻璃钢雕塑价格哪里找香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化