回到顶部

当前位置: > 话题资讯 > 互联网 > 正文

搜狗谷歌机器翻译结果的对比和分析

发布于 :2134    作者:咲甜    时间:2018-11-22   

关键词:互联网 互联网动态

搜狗谷歌机器翻译结果的对比和分析

雷锋网(公众号:雷锋网)  本文作者:宋柔,广东外语外贸大学云山讲座教授,曾任北京语言大学信息科学学院教授,博士生导师,中文信息学报编委。主要从事智能软件工具、语言信息处理、人工智能应用方面的研究、开发和教学工作,近年的主要研究方向是语言信息处理。

去年谷歌推出了基于神经网络的机器翻译系统,最近搜狗也推出了类似的系统。我对这两个系统翻译结果的错误作了一些对比分析。

英译汉

测试样本是2016年12月12日纽约时报网上新闻第一则,共11个句子,361个英文词。其中的错误归为4种类型:译词错、结构错、漏译、多译。结构错又分为3类:介词错、一般结构错、成分共享关系错。

例1

Instead, Mr. Trump has decided to risk what looks to be a bruising confirmation fight in the Senate.

Google译文:

相反,特朗普先生决定冒险在参议院看起来是一个瘀伤的确认战。

其中有3个错误

  • risk what……confirmation fight,这里的risk带小句宾语,翻译成名词性宾语“冒险……确认战”不通,属于一般结构错。

  • bruising应该是“激烈的”或“困难的”,译作“瘀伤的”属于译词错。

  • in the Senate是risk的状语,译文中却是looks to的状语,属于一般结构错。

Sogou译文:

相反,特朗普决定冒险在参议院进行看似漏洞百出的确认战。

其中有1个错误

  • bruising译作“漏洞百出的”是译词错。

例2

The company has billions of dollars in oil contracts that can go forward only if the United States lifts sanctions against Russia, and Mr. Tillerson’s stake in Russia’s energy industry could create a very blurry line between his interests as an oilman and his role as America’s leading diplomat.

Google译文:

该公司拥有数十亿美元的石油合同,只有美国解除对俄罗斯的制裁,Tillerson先生在俄罗斯能源行业的股权可能创建一个非常模糊的线之间他的利益作为一个石油公司和他的作用,美国的领先外交官。

其中有7个错误

  • that can go forward 漏译。

  • between his interests as an oilman and his role as America’s leading diplomat.的结构是between A as B and C as D,应该译作“作为(B)的(A)和作为(D)的(C)之间的”,其中(X)表示X的汉语译文。但这里,“之间”的位置错了,第2个as未译出来,是2个介词错;(A)与(B)的关系、(C)与(D)的关系搞错了,是2个一般结构错。此外,oilman错译为“石油公司”、leading错译为“领先”,是2个译词错。

Sogou译文:

这家公司有数十亿美元的石油合同,只有当美国解除对俄罗斯的制裁,而tillerson在俄罗斯能源行业的股份可能会在他作为石油商的利益和他作为美国主要外交官的角色之间产生模糊的界限。

其中有1个错误:that can go forward 漏译。

between的介词短语翻译得完全正确,很不容易。

例3

In the past several days, Republican and Democratic lawmakers had warned that Mr. Tillerson would face intense scrutiny over his two-decade relationship with Russia, which awarded him its Order of Friendship in 2013, and with Mr. Putin.

Google译文:

在过去几天,共和党和民主党立法者警告说,Tillerson先生将对他与俄罗斯的二十年关系进行密切的审查,俄罗斯在2013年授予他的友谊,并与普京先生。

其中有4个错误:

  • face intense scrutiny over NP应当译作“面对关于(NP)的严格审查”,这里的译文是“对(NP)进行密切的审查”,把被动关系译成主动关系,是一般结构错;介词over没译出来,是介词错。

  • Order of Friendship错译为“友谊”,是译词错。

  • and with Mr. Putin应当与with Russia共享relationship,这里被单独搁置,是成分共享关系错。

Sogou译文:

在过去几天,共和党和民主党议员警告说,tillerson将会对他与俄罗斯的爱恨关系进行严格审查,这种关系于2013年向他授予了他的友谊秩序,并与普京一起。

其中有6个错误    

  • Google的4个错误在Sogou中同样存在。

  • two-decade relationship译文为“爱恨关系”,涉及“二十年”漏译而“爱恨”多译,归为漏译。

  • 向他授勋的是“俄罗斯”,译文中是“这种关系”,是先行词译错,归为成分共享关系错。

       错误分类统计如下表:

搜狗谷歌机器翻译结果的对比和分析

从这个样本看,Sougou英译汉的质量比Google明显地好。

除了错误少之外,Sogou译文的顺畅规范也好于Google。这表现在3方面:

(1)译词在可容忍的范围内选择得较为确切。如例3的intense scrutiny译作“严格的审查”而不是“密切的审查”,类似的情况有多处。

(2)同位语能前置于中心语的都前置处理,Google则多数按照英文的原序后置,并前后用逗号分隔。比如

selected Rex W. Tillerson, the chief executive of Exxon Mobil, to be his secretary of state.

Sogou 译作“选定埃克森美孚的首席执行官雷克斯担任他的国务卿”,Google译作“选举雷克斯·蒂尔森,埃克森美孚的首席执行官,成为他的国务卿”。Google这样翻译不能算错,但属于欧化表达,不顺畅。

(3)标点处理。英语中,并列短语之间用逗号分隔,汉语译文应该改用顿号。例如Mr. Romney, Mr. Petraeus and Mr. Corker,Sogou译作“罗姆尼、彼得雷乌斯和考克”,Google则仍作逗号,译作“罗宾尼先生,Petraeus先生和Corker先生”。

这个考察样本比较小,还不能全面反映两个系统的水平差异,但至少能看出Sogou英译汉的水平是相当不错的。

 汉译英

测试样本包括2016年12月12日中新网新闻2则5句,小说《鹿鼎记》1段3句,2016年政府工作报告2段2句,共10句626字。其中的错误归为4种类型:词语错、结构错、漏译、多译。词语错分为译词错、专名错、译词直接采用拼音、数词错4类,结构错又分为论元关系错、介词错、核心动词错、黏着结构错4类。

例1

2016年10月18日,王女士等几名群众来到巴中老城一银行客户部,反映通过该银行工作人员办理的存款不能取出,大家十分着急。

Google译文:

October 18, 2016, Ms. Wang and several other people came to the old city of Pakistan a bank customer department, reflecting the bank staff through the deposit can not be removed, we are very anxious.

其中有6个错误

  • 时间状语October 18, 2016缺少介词,属于介词错。

  • 城市名“巴中”译作Pakistan,属于专名错。

  • a bank customer department应是come to的处所宾语,译文中是宾语old city的后置定语,属于论元关系错。

  • “通过该银行工作人员办理的存款”译作the bank staff through the deposit,论元关系颠倒,属于论元关系错。

  • 存款的“取出”译作removed,属于译词错。

  • “大家十分着急。”是间接引语,译文中将“大家”译作“我们”,成为直接引语,属于译词错。

Sogou译文:

On October 18, 2016, mrs.wang and other people came to the bank of bus center, the bank of bus center, reflecting that the savings through the bank staff can not be taken out, everyone is very anxious.

其中有2个错误

  • 城市名“巴中”译作bus center,属于专名错。

  • “客户部”漏译,而且重复了the bank of bus center,这里归为漏译。

例2

江南近海滨的一条大路上,一队清兵手执刀枪,押着七辆囚车,冲风冒寒,向北而行。

Google译文:

Jiangnan near the waterfront on a road, a team of Qing Bing Shouqiangqiang, escorted seven prisoners, the wind cold, northbound.

其中有6个错误:

  • “江南”直接使用拼音Jiangnan,归为词语错中的拼音类错误。

  • “近海滨的一条大路上”译文为near the waterfront on a road,修饰关系颠倒,归为论元关系错。

  • “清兵”和“手执刀枪”在译文中直接使用拼音(后者拼写错),是词语错中的2个拼音类错误。

  •  黏着语素结构“冲风冒寒”译文为the wind cold,归为黏着结构错。

  • “向北而行”译文为northbound,缺核心动词,为核心动词错。

Sogou译文:

On a main road near the south of the Yangtze river, a team of Bowls, with a knife, held seven prison van, Okikaze, and xing to the north.

其中有3个错误:

  • “清兵”译作Bowls,为译词错。

  • 黏着语素结构“冲风冒寒”译文为Okikaze,归为黏着结构错。

  • “向北而行”的“行”直接用拼音xing,归为词语错中的拼音类错误。

错误分类统计如下表:

搜狗谷歌机器翻译结果的对比和分析

从这个样本看,Sougou汉译英的质量与Google相比大致相当。从错误类型看,Sogou漏译较多,Google论元关系错误较多。

这个考察样本也比较小,不能全面反映两个系统的实际水平。但对比英译汉和汉译英,两个评测样本的规模大致相当,两个系统的汉译英的错误都明显多于英译汉的错误,也许说明汉译英比英译汉,难度更大一些。

值得思考的问题

从这两个系统的测试结果对比中可以看出一些问题。

(1)       有些语段两个系统都译错了。比如英译汉例2中的

The company has billions of dollars in oil contracts that can go forward only if the United States lifts sanctions against Russia

其结构是S1 S2 Conj S3,其中S表示小句,Conj表示连词。两个系统S2都漏译。

英译汉例3中的

his two-decade relationship with Russia, which awarded him its Order of Friendship in 2013, and with Mr. Putin

其结构是 N1 with N2, RS, and with N3,其中N表示名词短语,RS表示关系从句。两个系统都未能把with N2和with N3连起来翻译。

采用同一个模型的不同系统对于同一个结构的翻译犯相同的错误,也许可以令人怀疑这种模型对于这类结构的适应性。这类结构是否确实包含着本质性的翻译困难?如何解决这种困难?

(2)汉译英比英译汉是否确实更为困难?具体的困难在哪里?黏着语素结构显然是一个不易解决的难点。此外,属于论元关系、核心动词、漏译类型的错误在两个系统中出现的都比较多,这是为什么?如何解决?

基于神经网络的机器翻译出现的时间不长,已经显示出明显的优势。但是任何新方法、新技术都会有不足之处,神经网络机器翻译也不会例外。摸索这种方法的天花板,探寻打破天花板的更新的理论和方法,应当是机器翻译的研究方向。


雷锋网版权文章,未经授权禁止转载。详情见转载须知

    2134小游戏发布此文仅为传递,不代表认同其观点或者证实其描述,文章来自互联网及厂家投稿,侵删联系QQ100066660(投稿免费) 公众号,小程序,游戏产品入库15元/个,棋牌25元/个

    游戏老司机 更多

    话题推荐 更多

    热门动态 更多

    节操尽碎

    专题合集 更多

    热门关键词