首页 > IT业界 > 正文

微软同声翻译软件能够替代真人?

2012-11-26 18:29
原创

  10月25日,微软首席研究官、微软研究院院长里克·雷斯特博士在天津举办的“21世纪计算大会”中展示的微软最新的研究成果——同声传译,向世人描绘了一幅“跨越语言,沟通无碍”的美好蓝图。

  速度只比原声慢半秒

  在美国热播了40年的科幻电视剧星际迷航》中,有一个非常“打眼”的工具——宇宙翻译器。星际舰队成员把它别在胸前徽章里,整个星际联邦都广泛使用它将所有的已知语言翻译为听者所懂的语言,对其余的未知语言也可通过对简短几句话的分析而进行转换。按照剧中设定,宇宙翻译器要到22世纪才能发明。

  不过,在雷斯特的设想中,这种翻译器的出现可能不用等那么久,他日前展示的“同声传译”就是通往宇宙翻译器的重要一环。

  在这个10分钟左右的演示中,雷斯特一直中速讲英文,他背后有两个大屏幕。现场观众都看到其中一个屏幕把他讲的话以英文文本的形式展示出来,速度大概只比他的声音慢小半秒。

  在另一个屏幕上,上半部把英文文本中的单词提取出来,并对应中文单词,而下半部按照中文语序已经排列成中文句子。

  随后,最令人激动的时刻到来了,翻译完的中文句子以普通话的形式“说”了出来,声音听起来与雷斯特本人很像,速度基本上是他一说完英语,机器就“说”出仿真声音的中文翻译,听起来就像雷斯特在给自己做同声传译。

  他表示,微软的同声传译不仅能英译汉,还能翻译西班牙语等26种语言。虽然目前还没有走出实验室,未来却可能做成同声传译器,以至有人惊呼学同声传译的人岂不是要失业么?

  语言识别并未完美

  这个吸引眼球的演示第一步就是用计算机识别雷斯特的英文发言,但是这可能也是最难的一步。

  雷斯特介绍,最开始的语言识别采用简单的模式匹配,计算机检查语音产生的波形,并尽量与已知相关的特定单词相匹配。不过这一方法失效率太高了。

  直到七八十年代,隐式马尔科夫模型(HMM)被广泛应用,它利用来自多个人的培训数据建立更为稳健的统计语音模型,成为语言识别的主流。不过,直到今日,即使是最佳的语音系统,在任意语音上的单词出错率还高达20%-25%。

  “两年前,我们和多伦多大学的研究人员使用一项名为深度神经网络的技术,仿照人脑行为,语音的错误率比之前的方法降低30%。这意味着之前四五个单词中就会出现一个错误,而现在七八个单词中才会出现一个错误。”


  虽然微软同声传译的技术细节仍未透露,不过声学专家解释,这一技术还是建立在HMM的框架上,改为用神经网络模拟语音特征分布,从八九十年代就有应用。只是现在计算能力提高,能把模型做得更细,也就更“深度”。

  这种方法的准确率与数据积累有很大关系。计算机越来越多地学习、掌握更多数据,就会更聪明,这就是“机器学习”,不过机器学习依然有限度。如果是针对专人的优化“学习”,语言识别的性能会提高得多一些。

  机器翻译能代替人工翻译?

  说话人的语言被识别了,如何英译汉也是个大问题。数据显示,近几十年来,因机器翻译质量存在问题,一直无法成为翻译的主流。我们经常会使用软件翻译页面,所得文本之凌乱不言而喻。

  雷斯特表示,他的演示中英译汉需要两个步骤:“第一步是提取我说的单词,然后找到相应的中文,虽然这并不简单,但确实是比较简单的一步。第二步是重新调整单词的顺序,使之符合中文习惯,这是语音正确翻译的重要一步。”

  雷斯特所说的步骤与目前机器翻译的方法是一致的。难点就在于译文选择和调序,不同语言语序不同,一个词翻译成另一种语言也可能有多个候选译文,所以机器翻译结果有时漏洞百出。现有提高正确率的方法需要依靠统计学。

  雷斯特也承认,微软的同声传译在文本方面还有很多错误,而且翻译结果可能很搞笑。不过,统计技术和大数据的引入将使文本翻译有翻天覆地的变化。

  然而,有专家认为,机器翻译只能在某个特定领域达到较高的准确率,比如法律或经济领域能达到80%到90%的准确率,这是因为在特定领域词义有了明确界定。而在通用领域,机译准确率不会很高,还是要依赖人工翻译的经验。

  模仿的声音有多像?

  “数年后我希望打破人与人之间的语言障碍。”当雷斯特用英语说出这句话一秒钟后,微软同声翻译机模仿他的声音用中文说出。台下的观众报以热烈的掌声。

  确实,如果能在翻译中保留说话人的语调,交流将会更顺畅。雷斯特说:“我这个不会说中文的人以自己的声音‘说’出中文实在令人兴奋。”而要达到这一效果,需要一个文本到语音的系统,包含数小时中国人说话的语音。此外,他还要预先录制1小时的英文语音数据用来提取自己的声音属性,最后得到仿佛自己在说中文的效果。

  这是一个个性化语音合成技术。一般情况下,机器通常只需模仿固定的男女两种声音,而要得到针对专人的仿声,则需要获得他/她的语音数据,提取发声相关的特征参数,比如节奏、频率、语气,也就是专业术语说的基频等等。当合成系统适应后,就可以输出仿真声音了。


  不过,模仿声音无法做到以假乱真,应该只能做到七分像,因为模仿只能把一个人的习惯在单调水平上重现。比如,可以通过一个人走路的习惯、步长、左右摇晃等准确模仿他的行走。但是人讲话的信息量太大,虽然理论上可以分析节奏、频率,但是要完全量化技术上还是做不到。

举报
关注公众号“多特资源号”
内容来源于网络,不代表本站观点,侵删
热搜资讯