神经机器翻译(NMT)是每个人都关心的问题. 它的质量已经变得令人震惊,即使不是令人恐惧,而且就在永利登录网址说话的时候,它还在继续提高. 科技巨头在NMT应用上投入了大量资金. 大大小小的语言服务提供商正在将其部署到生产环境中. 翻译人员越来越多地在他们的工作流程中使用它. 事实上,后期编辑机器翻译(MT)已经成为一种默认设置 modus operandi for many.
由于其为深度学习设计的端到端计算架构, NMT比它的前身更容易理解, statistical MT. 但核心MT研究仍然是相对少数人的特权. For most users, MT仍然是一个黑盒子,其行为往往不可预测, 但多亏了最近旨在提高MT识字率的努力1但是,情况已经开始发生变化. MultiTraiNMT项目是朝着这个方向迈出的重要一步.
什么是MultiTraiNMT?
由欧盟伊拉斯谟+计划资助, MultiTraiNMT是一个专门用于“开发”的项目, evaluate, 传播开放获取材料和开源应用程序,以促进语言学习者对机器翻译的教与学, 语言教师, 实习翻译, 翻译老师, 以及遍布欧洲的永利最新网址.”2 不仅仅是欧洲.
在过去的三年中,由巴塞罗那大学Autònoma的一组专家开发, 大学d 'Alacant, 大学Grenoble-Alpes, 都柏林城市大学, 以及Prompsit Language Engineering和kanantmt, MultiTraiNMT邀请所有感兴趣的各方作为合作伙伴加入:
- 在他们的课堂上使用项目教材和相关活动.”
- “为了教学目的,测试用于管理NMT引擎的MutNMT教育平台和活动.”
- 参与任何其他培训和/或研究活动,以促进MT技能的发展.”3
下面简要说明该项目的三个相互关联的组成部分.
The Book
该开放获取教材于2022年7月发布, 适合大家的机器翻译 (参见侧栏中的链接), 涵盖了很多领域——从技术基础到MT的伦理和广泛的社会影响. 虽然明确是为了课堂使用, 这本书有九个章节, 由相关领域的专家撰写, 是非常清晰易懂的吗. 每一章都可以单独阅读,并且有大量对更专业文献的参考.
The Activities
教材的每一章都有两种类型的活动:
- 从多项选择题到填字游戏和填空练习的自学问题(参见图1), 为那些按照自己的节奏学习的人提供即时的自动反馈.
- Open-ended, 可定制的教师指导的小项目,邀请读者反思许多有趣的和具有挑战性的问题围绕MT和写简短的文章. (See Figure 2.)
图2:第六章“伦理与机器翻译”的短文作业
目前有200多个精心准备的优秀活动, 作者将这些细节如此细致地放在一起,值得称赞, 使用开源的H5P平台, 允许用户将它们集成到学习管理系统(如Drupal或Moodle)和发布环境(如WordPress)中. 翻译教师可以根据自己的需要进一步调整这些活动. 这是一个很好的自我测试, 如果你能正确回答大部分问题, 你可能很了解MT!
要理解这一点,请浏览问题. 你将被测试广泛的主题——从神经网络的基础知识到著名的词嵌入的语义炼金术, 到MT评估指标,如BLEU和TER, 使特定的机器翻译引擎适应给定任务的机遇和挑战, 以及在第二语言学习中使用机器翻译. 如果你发现你的背景中有明显的空白,那就读这本书! 它有所有的答案,是一个非常有益的阅读,即使你已经熟悉的材料. 在其他方面,它试图提供一个统一的视角,在一个领域,已经变得非常马赛克.
MutNMT
它的名字来源于Mut, 古埃及的母神, MutNMT是一个web应用程序,它允许您在没有任何编码的情况下了解MT的底层! 任何拥有谷歌账户的人都可以访问该应用程序的七个功能中的五个:数据, Engines, Translate, Inspect, and Evaluate. (See Figure 3.让永利登录网址来看看这些特性.
Data: 一个快速扩展的平行语料库集合已经被专家用户上传到系统. 有些语料库有数百万个句子对. 这些用于训练NMT引擎. 任何用户都可以“抓取”一个可用的语料库并将其添加到他们的个人集合中(“您的语料库”)。. 语料库也可以作为两个并行文本文件的压缩存档进行预览和下载.
Engines: 提供由专家用户在可用语料库上训练的不断增长的NMT模型列表. Again, 用户可以“抓取”任何引擎并将其添加到他们的个人收藏(“您的引擎”)中进行翻译和检查. 您还可以查看给定引擎的训练日志,并学习大量有用的信息. 不再需要的语料库和引擎可以从单个集合中删除.
图3:MutNMT的接口
Translate: 在这里,您可以从您的个人集合中选择一个引擎来翻译句子或小文件. 这可能需要一些时间. 重要的是:不要期望DeepL的质量! Rather, 来欣赏一个惊人的事实:一个神经模型完全是在一个相对较小的语料库上从零开始训练的4 使用一个简单的工具包5, 只需要一个小时的图形处理单元(GPU)时间, 主要是为了教学目的,通常可以产生一个合理的翻译,并且以这种透明的方式!
Inspect: 让您更深入地了解按下“翻译”按钮时会发生什么. 系统首先对输入的句子进行“标记”(将其分割成单词), 标点符号, 有时是子词段). 然后,引擎生成“N-Best”候选翻译, 从中选出最可能的那个. 这些步骤是可视化的,以便你注意和学习. 您还可以比较给定语言对的几个选定引擎的输出.
Evaluate: 计算几个流行的指标(例如.g., BLEU, chrF3, 和TER),通过将所选引擎的输出与生成的参考翻译进行比较, hopefully, 由专业的翻译人员翻译. 您需要上传一个源文件(最多500个句子), 纯文本格式, 每行一个句子)以及MutNMT输出和参考文件, 哪个必须与源完全对齐. 请注意,此测试装置不应用于训练发动机! 除了文档级别的分数, MutNMT为前100个测试句子逐句生成BLEU/TER“得分图”. (See Figure 4.)您可以显示它们中的每一个,以查看MT输出可能出现的问题. 作为奖励,您可以使用Evaluate特性对任何MT输出(例如.g., 来自谷歌翻译, ModernMT, 或者你自己的自定义引擎),通过上传三个文本文件并按下“评估”按钮来获得近乎科学的质量感觉.
图4:由MutNMT生成的MT评价分数和地图
上传语料库和训练引擎(供高级用户使用)
这里讨论的MutNMT的五个特性允许任何人打开NMT的“黑盒子”并进入其中. 那些对它感到舒适并准备做更多工作的人可以要求“专家”状态,以便能够上传新的语料库和训练新的引擎. 这是非常令人兴奋的,但也耗费时间和资源. 有很多不同格式的多语种公共语料库, 包括TMX和并行文本文件(例如.g.,请参阅侧栏中的OPUS站点)。. And if you have a good translation memory with >100K units, you could try to train an engine on it.6 给定语言对的语料库可以组合起来进行训练,总共有500K个句子对. In addition, 你需要为“验证”和“测试”创建较小的独立语料库(3-5K句对).我建议在“评价”部分增加一个句子(500句对)。.
假设这些数据与训练集或它们之间没有重叠, 你会为整个过程做好准备. 从事机器翻译的研究和开发, 通过将验证和测试数据从大型训练语料库中分离出来来生成验证和测试数据是标准实践. 但是一些公共语料库是高度重复的, 因此,您需要确保结果子集之间没有重叠, 否则,你可能会得到虚高的分数,但质量却很差. In any case, 语料库必须完全对齐, cleaned, 或者进行预处理,以便与MutNMT一起使用.
如果“专家”用户决定在教学中使用MutNMT或以官方身份与MultiTraiNMT合作,则可以进一步提升为“管理员”状态. For further tips, 请阅读笔记部分和侧边栏中引用的材料,并在MultiTraiNMT YouTube频道上观看非常有用的视频.
打开黑匣子的包装
学习机器翻译最好的方法是打开它的黑匣子. 多亏了像MultiTraiNMT这样的努力,这变得越来越有可能. 深入了解NMT是非常有用的!
Notes
- Such as the 机器翻译扫盲倡议 由林恩·鲍克领导. (一定要看看Twitter页面!)
- Ramírez-Sánchez, Gema等. MultiTraiNMT:从头开始学习神经机器翻译的训练材料.” 在线翻译与口译技术 (July 2021).
- Forcada, Mikel L., et al. “MultiTraiNMT Erasmus+项目:多语种公民的机器翻译培训”.” 第23届欧洲机器翻译协会年会论文集 (2022), 291-292.
- Up to 0.500万句,这是开发者设定的限制. 相比之下,用于训练商用机器翻译引擎的语料库可能有100M+的句子对.
- MutNMT是基于 JoeyNMT,一个具有简单架构和许多固有局限性的教育NMT框架.
- 但请记住,“分享”将使其公开. 即使你把它放在你的个人收藏中, 与开发人员再次确认上传数据的保密性是个好主意.
了解更多信息
多语种公民的机器翻译培训
MultiTraiNMT的主页.
MutNMT
一个用于训练NMT引擎的web应用程序,用于教学目的.
MutNMT:基本和高级功能
MutNMT的描述和说明.
MultiTraiNMT Erasmus项目
MultiTraiNMT的YouTube频道
肯尼,多萝西,编辑. 适合大家的机器翻译 (语言科学出版社,2022).
作为MultiTraiNMT项目的一部分发布的开放获取的教材.
学习活动探索者来自MultiTraiNMT:为MT学习者提供200多个活动.
H5P
MultiTraiNMT活动中用于学习和发布系统的插件.
OPUS
越来越多的开放多语言语料库.
Yuri Balashov, CT 是乔治亚大学(University of Georgia)人工智能研究所的哲学教授和教员. He is also an ATA-certified English>Russian translator. 他正在研究一个探索认知的项目, linguistic, 以及人类和机器翻译的哲学维度. balashov.yuri@gmail.com
如果您对有用的资源或工具有任何想法和/或建议,您希望看到特色, 请发邮件给约斯特·蔡澈 jzetzsche@internationalwriters.com.