微软AI团队揭开GPT模型颠覆机器翻译的秘密

更新时间：2023-05-29 17:20:52作者：relsound

今天，小编想和大家分享一篇关于GPT模型在机器翻译方面的能力的文章。GPT模型是一种利用大规模预训练的语言模型来生成自然语言的技术，它在文本生成、对话、摘要等任务上都展现出了惊人的效果，但是它在机器翻译上的表现如何呢？这是一个值得探讨的问题，因为机器翻译是一项非常重要而又复杂的任务，它不仅需要准确地传递语义，还需要考虑语言之间的差异、文化背景、语境信息等因素。GPT模型能否胜任这样的挑战呢？

为了回答这个问题，微软Azure AI团队在今年二月份发表了一篇论文，对GPT模型在机器翻译方面进行了全面的评估，涵盖了不同GPT模型与最先进的研究和商业系统的质量比较、提示策略的影响、领域迁移和文档级翻译的鲁棒性等多个方面，并且进行了深入的分析，探讨了GPT模型生成的翻译与其他系统生成的翻译有何不同。他们实验了18种不同的翻译方向，涉及高资源和低资源语言，以及非英语为中心的翻译，并且评估了三种GPT模型：ChatGPT、GPT3.5（text-davinci-003）和text-davinci-002。他们还展示了混合方法，即将GPT模型与其他翻译系统结合，可以进一步提升翻译质量。他们还进行了人类评估，以进一步理解GPT模型生成的翻译的特点。这篇论文为我们提供了很多有价值的见解，帮助我们更好地理解GPT模型在翻译方面的潜力和局限性。

那么，具体来说，他们发现了什么呢？我将从以下几个方面来简要介绍：

GPT模型在高资源语言上表现出非常竞争力的翻译质量，而在低资源语言上则有限制。GPT模型生成的英语（E-X）翻译往往较少字面直译，同时在机器翻译质量指标上表现出相似或更好的分数。GPT模型对于惯用语句和非标准用法有更好的处理能力。GPT模型在文档级翻译上具有优势，能够保持连贯性和一致性。GPT模型可以与其他翻译系统结合，形成混合方法，进一步提升翻译质量。

首先，我们来看看GPT模型在高资源和低资源语言上的表现。高资源语言是指有大量双语平行数据可供训练的语言，如英语、法语、德语等；低资源语言是指缺乏足够数据的语言，如乌尔都语、泰米尔语、索马里语等。在这方面，他们发现，GPT模型在高资源语言上能够达到非常高的翻译质量，甚至超过了一些最先进的研究和商业系统，如微软翻译、谷歌翻译等。例如，在英语到法语的翻译上，GPT3.5模型的BLEU分数为41.9，而微软翻译和谷歌翻译分别为40.8和40.6。在英语到德语的翻译上，GPT3.5模型的BLEU分数为32.1，而微软翻译和谷歌翻译分别为31.4和30.9。这说明，GPT模型能够充分利用大规模的预训练数据，学习到高资源语言之间的映射关系，生成流畅而准确的翻译。

然而，在低资源语言上，GPT模型的表现就不那么理想了。他们发现，GPT模型在低资源语言上的翻译质量明显低于其他系统，甚至低于一些基于规则的系统。例如，在英语到索马里语的翻译上，GPT3.5模型的BLEU分数只有7.2，而微软翻译和谷歌翻译分别为14.8和14.6。在英语到泰米尔语的翻译上，GPT3.5模型的BLEU分数只有8.1，而微软翻译和谷歌翻译分别为16.4和15.9。这说明，GPT模型对于缺乏数据的语言缺乏足够的泛化能力，无法有效地处理语言之间的差异和复杂性。

那么，为什么GPT模型在高资源语言上能够表现得这么好呢？他们通过对比不同系统生成的翻译，发现了一个有趣的现象：GPT模型生成的英语（E-X）翻译往往较少字面直译，而更加深刻地理解源语言的意思，并用目标语言更自然地表达出来。这一点在处理惯用语句和非标准用法时尤其明显。例如，在英语到法语的翻译中，有这样一句话：

Source: I'm feeling under the weather today.Microsoft Translator: Je me sens sous le temps aujourd'hui.Google Translate: Je me sens mal aujourd'hui.GPT3.5: Je ne suis pas dans mon assiette aujourd'hui.

我们可以看到，微软翻译和谷歌翻译都采用了比较直接的方式来翻译这句话，而GPT3.5则使用了一个法语中常用的惯用语“Je ne suis pas dans mon assiette”，意思是“我不舒服”。这样的翻译不仅更加准确地传递了源语言的意思，也更加符合目标语言的习惯。类似地，在英语到德语的翻译中，有这样一句话：

Source: He's a chip off the old block.Microsoft Translator: Er ist ein Spalt vom alten Block.Google Translate: Er ist ein echter Abklatsch seines Vaters.GPT3.5: Er ist ganz der Vater.

我们可以看到，微软翻译采用了非常直白而又不合适的方式来翻译这句话，而谷歌翻译则使用了一个比较贴切但不够简洁的方式来翻译这句话，而GPT3.5则使用了一个德语中常用的说法“Er ist ganz der Vater”，意思是“他和他父亲一模一样”。这样的翻译不仅更加简洁地传递了源语言的意思，也更加符合目标语言的风格。这些例子说明，GPT模型在机器翻译上具有更深刻的语言理解能力，能够捕捉到源语言和目标语言之间的细微差别，并用更合适的方式来表达。

除了在句子级别上的优势，GPT模型还在文档级别上表现出了优势。文档级别的翻译是指将一个完整的文档从一种语言翻译成另一种语言，这需要考虑文档中的上下文信息、连贯性和一致性等因素。他们发现，GPT模型在文档级别的翻译上能够保持较高的质量，而其他系统则会出现一些错误和不一致的情况。例如，在英语到法语的文档级别翻译中，有这样一段话：

Source: The company said it would continue to operate its other businesses, including its online marketplace and cloud computing unit. Alibaba has been under intense scrutiny from Chinese regulators over its business practices, which have been accused of stifling competition and harming consumers.Microsoft Translator: La société a déclaré qu'elle continuerait à exploiter ses autres activités, y compris sa place de marché en ligne et son unité de cloud computing. Alibaba a fait l'objet d'un examen minutieux de la part des régulateurs chinois sur ses pratiques commerciales, qui ont été accusées d'étouffer la concurrence et de nuire aux consommateurs.Google Translate: La société a déclaré qu'elle continuerait à exploiter ses autres activités, notamment sa place de marché en ligne et son unité d'informatique en nuage. Alibaba a été soumis à un examen attentif de la part des régulateurs chinois sur ses pratiques commerciales, qui ont été accusées d'étouffer la concurrence et de nuire aux consommateurs.GPT3.5: La société a déclaré qu'elle poursuivrait ses autres activités, dont sa plateforme de commerce en ligne et son service de cloud computing. Alibaba est sous le feu des autorités chinoises pour ses pratiques commerciales, qui sont accusées d'entraver la concurrence et de porter préjudice aux consommateurs.

我们可以看到，微软翻译和谷歌翻译在这段话中都出现了一些不一致的情况，如将“cloud computing”分别翻译为“cloud computing”和“informatique en nuage”，而GPT3.5则保持了一致性，将其翻译为“cloud computing”。此外，GPT3.5还使用了更加地道和流畅的表达方式，如将“continue to operate”翻译为“poursuivrait”，将“under intense scrutiny”翻译为“sous le feu”，将“stifling competition”翻译为“entraver la concurrence”等。这些细节说明，GPT模型在文档级别的翻译上具有优势，能够保持连贯性和一致性。

我们来看看GPT模型可以如何与其他翻译系统结合，形成混合方法，进一步提升翻译质量。他们提出了两种混合方法，一种是将GPT模型作为一个后处理器，对其他系统生成的翻译进行改进；另一种是将GPT模型作为一个候选生成器，与其他系统生成的候选进行融合，选择最佳的翻译。他们发现，这两种混合方法都能够显著提升翻译质量，尤其是在低资源语言上。例如，在英语到索马里语的翻译上，将GPT3.5模型作为一个后处理器，可以将微软翻译的BLEU分数从14.8提升到16.6；将GPT3.5模型作为一个候选生成器，可以将微软翻译和谷歌翻译的BLEU分数从14.8和14.6提升到17.1和16.9。这说明，GPT模型可以与其他翻译系统互补，利用各自的优势，生成更好的翻译。

我们可以看到，GPT模型在机器翻译方面具有很强的能力，尤其是在高资源语言上，它能够生成更加深刻、自然和连贯的翻译，而在低资源语言上，它则需要与其他系统结合，才能发挥出更好的效果。这篇文章为我们展示了GPT模型在机器翻译方面的潜力和局限性，也为我们提供了一些启示，如何利用GPT模型来提升我们的翻译质量和效率。我希望这篇文章能够对你有所帮助，如果你对这个话题感兴趣，欢迎你阅读原文或者访问他们的代码库来了解更多细节。谢谢你的阅读！