新兴行业翻译 新兴行业翻译 新兴行业中介平台
创始人
2025-07-12 08:56:33
0

网易科技讯6月6日消息,据国外媒体报道,谷歌表示,它已在提高没有大量书面文本语料的语言的翻译质量上取得了进展。在一篇即将正式发表的博客文章中,该公司详细介绍了助力提升谷歌翻译()所支持的108种语言翻译质量的新创新技术(特别是缺乏语料数据的约鲁巴语和马拉雅拉姆语)。

谷歌翻译服务平均每天翻译1500亿个单词。

自谷歌翻译首次亮相以来的13年里,神经机器翻译、基于重写的范式和设备端处理等技术的出现和改进,助力该平台的翻译准确性取得不小的飞跃。但直到近年,即便是最先进的翻译支持算法也一直落后于人类的表现。谷歌以外的努力充分说明了这个问题的严重性——旨在使得非洲大陆的数千种语言可自动翻译的项目,至今还没有走出数据收集和转录阶段。致力于建立一个开源的语音转录数据收集平台,自2017年6月推出以来也只审查了40种语音。

谷歌称,它在翻译领域所取得的突破并不是由单一技术驱动的,而是针对低资源语言、高资源语言、总体质量、延迟和整体推理速度的多项技术共同作用产生的。在2019年5月到2020年5月之间,根据人工评估和BLEU(基于翻译系统翻译和人工参考翻译之间相似性的衡量标准),谷歌翻译在所有语言中平均提高了5分以上,在50种语料资源最少的语言中平均提高了7分以上。

混合模型和数据挖掘器

这些技术中的第一个是转换模型架构——一种混合架构,包括一个编码器和一个用实现的递归神经网络(RNN)解码器,后者是一个用于序列建模的框架。

在机器翻译中,编码器通常将单词和短语编码为内部表示形式,然后由解码器生成目标语言的文本。基于的模型是谷歌研究人员在2017年首次提出的,在这一点上它比RNN更有效,但谷歌表示,它的研究表明,翻译质量的提高主要来自的一个部件:编码器。这可能是因为虽然RNN和Transformer都是为处理有序的数据序列而设计的,但后者并不要求按顺序处理数据序列。换句话说,如果涉及的数据是自然语言,Transformer不必先处理好句子的开头才处理句子的结尾。

然而,RNN解码器在推理时间上仍然比Transformer中的解码器要“快得多”。谷歌翻译团队认识到这一点,于是在将RNN解码器与Transformer编码器耦合之前,对RNN解码器进行了优化,以创建低延迟新兴行业翻译、质量及稳定性均比此前所使用的RNN神经机器翻译模型更胜一筹的混合模型。原来使用的RNN神经机器翻译模型已有4年历史。

2006

年上线不久以来,谷歌翻译模型各种语言的

BLEU

得分提升趋势

除了打造新颖的混合模型架构之外,谷歌还升级了一个有几十年历史的爬虫程序。该程序用来从文章、书籍、文档和网络搜索结果等内容中的数百万条示例翻译中编制训练语料。该新数据挖掘器基于支持14个语言对的嵌入模式,而非基于词典模式,也就是说它是使用实数向量来表示单词和短语,更多地聚焦于精确性(检索数据中的相关数据部分),而非检索(实际检索的相关数据总量)。产出效果方面,谷歌说这使得该数据挖掘器提取到的句子数量平均增加了29%。

噪声数据和迁移学习

翻译性能提升的另一来源是一种建模方法,它能更好地处理训练数据中的噪声。据观察,噪声数据(含有大量无法正确理解或解释的信息的数据)会损害语料数据丰富的语言的翻译质量。所以,谷歌翻译团队部署系统来给使用噪声数据训练的模型的示例打分,进而筛选出“纯净”的数据。实际上,这些模型一开始基于所有的数据进行训练,然后逐渐基于更小、更纯净的数据子集进行训练,这种方法在人工智能研究领域被称为课程学习。

对于资源较少的语言,谷歌在谷歌翻译中采用了一个回译机制,来强化并行训练数据,即语言中的每个句子都与其译文相配对。(机器翻译传统上依赖于源语言和目标语言成对句子的语料库的统计。)在该机制中,训练数据与合成的并行数据自动对齐,目标文本为自然语言,而源文本则由神经翻译模型生成。结果是,谷歌翻译充分利用更丰富的单语文本数据来训练模型,谷歌称这对提高翻译流畅性特别有帮助。

谷歌地图自带的翻译功能

谷歌翻译现在还采用M4建模方法,即用一个单一的巨型模型——M4——来在多种语言和英语之间进行翻译。(M4最初是在去年的一篇论文中提出的,该论文证明,在基于来自100多种语言的250亿对句子进行训练后,M4提高了30多种低资源语言的翻译质量。)M4建模让谷歌翻译中的迁移学习成为可能,因此,通过基于法语、德语、西班牙语等高资源语言(它们有数十亿条并行示例语料)的训练获得的见解,可以应用于低资源语言的翻译,如约鲁巴语、信德语和夏威夷语(它们只有数万条示例)。

展望未来

谷歌称,自2010年以来,按照BLEU标准(满分100分,谷歌翻译水平每年至少提高1分,但自动化机器翻译的问题并没有得到解决。谷歌承认,即使是它的增强模型,也会出现各种错误,如合并一种语言的不同方言,产生明显的字面翻译,以及在特定主题内容和非正式语言或口语上表现糟糕等等。

这家科技巨头正想方设法来解决这一挑战,包括借助它的谷歌翻译社区。该游戏化项目招募志愿者来翻译单词和短语或者检查翻译是否正确,借助他们来提高低资源语言的翻译质量。就在今年2月,结合新兴的机器学习技术,该项目为谷歌翻译增加了对总共7500万人使用的五种语言的支持,包括基尼亚卢旺达语、奥里雅语、鞑靼语、土库曼语和维吾尔语。

谷歌并不是唯一一家追求真正通用的翻译工具的公司。2018年8月,Facebook公布了一种人工智能模型,该模型结合使用逐字翻译、语言模型和回译来超越语言配对系统。最近,麻省理工学院计算机科学和人工智能实验室的研究人员也提出了一种无监督学习模型——一种从没有明确标记或分类的测试数据中学习的模型——它可以在没有直接的双语翻译数据的情况下在两种语言的文本之间进行翻译。

谷歌在一份声明中表示,它“非常感谢”学术界和产业界在机器翻译领域的研究成果,其中一些研究为谷歌自身的项目带来了启发。“通过结合利用和拓展近期的各种技术进步,我们完成了谷歌翻译最近的改进。”该公司说,“经过此次升级,我们很自豪能够提供相对连贯的自动翻译,哪怕是所支持的108种语言中语料资源最少的一种语言。”(乐邦)

相关阅读

  • 本市新产业新业态新模式迅速萌发成长 中关村引领“独角兽”加速跑
  • [新闻会客厅]新兴职业手语翻译员生殖健康咨询师
  • 传神语联承办第二届传神者大会再掀ai热 人工智能荣登新兴职业前三
  • 会学习的智能实时机器翻译
  • 人工智能重塑语言服务新兴行业翻译行业
  • 人工智能在语言翻译上又获重大突破!人类文明的“巴别塔”将被新兴技术撕裂还是重建?
  • 江西国家级大学生创新创业基地落户南昌 入驻最高可获10万元无息贷款
  • 成都大学生开网店可领创业补贴 最高10万元
  • 新兴行业翻译
  • 分享到: QQ空间 新浪微博 腾讯微博 人人网 微信 百度 复制网址

    相关内容

    热门资讯

    最新!一批单位正在招聘 最新!多家单位正在招聘,一起来看—— 招聘速览 福建地震局公开招聘工作人员11名 莆田学院公开...
    “手术非常及时,第一次遇到服务... “医生和护士的态度都非常好”“手术非常及时,主刀医生做得也很好”“第一次遇到服务这么好的医院”,近日...
    美国支持以色列进攻加沙城 专家... 以色列国防军当地时间16日发布声明称,过去24小时,以军第98师、第162师以及第36师在加沙地带北...
    菲律宾东部热带低压生成 即将加... 中央气象台9月16日18时发布热带低压预报: 菲律宾以东洋面的热带扰动已于今天下午加强为热带低压,...
    闽清开通首条山区无人机“空中暖... 福州新闻网9月16日讯(记者 谢敏/文 通讯员 俞方玲/摄)一架无人机轻盈升起,划破薄雾,载着物资向...
    福州市众创空间协会多措并举助力... 两岸融合办实事 台青创业有坦途 ——福州市众创空间协会多措并举助力台青在榕创业 福州新闻网9月1...
    正式上线!全城开麦!一起唱响福... 旋律漫过古厝飞檐,音符散入闽江晚风,让我们一起吟唱,你我最熟悉的巷弄回响,我们把故事写进歌谣,将乡音...
    你的书法作品与名家相似度有多少... 笔墨藏山河,金石载春秋。游走在福州山水间,你是否偶遇过摩崖石刻?你试过临摹名家作品并对比分析吗?你知...
    是西湖公园7.3倍大!福州这里... 是西湖公园7.3倍大!福州新区(长乐区)将添新公园。日前,记者探访福州新区滨海新城东湖体育公园(原滨...
    受贿超5506万元 中央宣传部... 2025年9月16日,河北省廊坊市中级人民法院一审公开宣判中央宣传部原副部长张建春受贿案,对被告人张...
    “红色回声 礼赞英烈”仓山区举... 近日,为纪念中国人民抗日战争暨世界反法西斯战争胜利80周年,仓山区组织开展“红色回声 礼赞英烈”主题...
    总金额超1000万元!福州市重... 9月16日,福州召开“福满金秋 遇见福州遇见你”福州市秋季文旅主题新闻发布会。会上宣布,为放大“票根...
    俄副外长:俄外长与美国务卿可能... 据塔斯社当地时间9月16日报道,俄罗斯副外长谢尔盖·里亚布科夫表示,俄罗斯外长拉夫罗夫与美国国务卿鲁...
    铁路取消纸质票后,脱网旅客如何... 10月1日起铁路客运将全面取消火车纸质报销凭证,如何为老年人、脱网人群等旅客获取电子发票提供便利? ...
    国防部回应福建舰通过台湾海峡 据“国防部发布”微信公众号消息,9月16日下午,国防部新闻局副局长、国防部新闻发言人蒋斌大校就近期涉...
    福建舰赴南海试验训练 航母建设... 16日,国防部举行例行新闻发布会。据报道,福建舰航母近日开展海上试验,并通过台湾海峡赴南海海域活动。...
    谎称帮忙取消会员巨额现金不翼而... 近日(9月8日),江苏扬州的张先生遭遇电信诈骗,当地银行工作人员及时发现情况,与警方联手进行劝阻,避...
    2025年第一次“福建好人榜”... 经各地推荐、专家评审,现将2025年第一次“福建好人榜”拟上榜人员名单及主要事迹进行公示。在此期间,...