IT资讯

什么是同声传译?AI翻译科普[多图]

关注国际新闻的朋友可能已注意到,每次的联合国大会上,很多外交官都会头戴耳机认真聆听其他国家外交官的发言,这里应用的就是同声传译技术,它让收听者可以快速理解不同国家的语言。以前的同声传译基本上靠人来快速翻译,而随着智能技术的发展,智能机器翻译开始越来越多的应用到同传的领域中。 同声传译,并不是一次简单的机器翻译 说到机器翻译,相信很多朋友都在使用百度、有道等公司提供的在线翻译。我们只要打开在线翻译页面,然后输入需要翻译的语句,选择输出翻译语言即可快速完成翻译。如果再借助语音输入完成需翻译语句的输入,这就是一次简单的同声传译模型(图1)。 什么是同声传译?AI翻译科普[多图]图片1

图1 同声传译模型

不过在线机器翻译准确度不高、机械性强、语义歧义等一直受人诟病,而要实现同声传译,一是要求“同声”,也就是可以同步识别发言者的语音,实现尽可能短的延迟;二则是“传译”,要求翻译尽可能的准确。随着人工智能和深度学习技术的发展,同声传译技术逐渐实现上述两个要求,比如搜狗的“搜狗同传”技术就可以很好实现“同声”和“传译”(图2)。 什么是同声传译?AI翻译科普[多图]图片2

图2 “搜狗同传”技术展示

同声+传译,搜狗同传背后的秘密 如上所述,同声传译技术并非简单的语音输入和机器翻译的结合体。同声传译讲究的是“同声”+“传译”,那么搜狗同传这类技术是怎么实现这些要求? 首先是同声,在王小川演讲的演示中可以看到,在演讲者完成一句话的演讲后,背后的大屏幕几乎在同一时间完成了语音和文字转换。这看似简单的语音到文本的转换,实则是搜狗强大语音识别技术的实际体现。 要对某个人说出的语句进行实时、高效的识别,搜狗同传先要实现精准的语音断句,也就是对用户说的每一句话进行判断,从而可以准备识别用户真正的表达意图。因为用户的演讲是连贯的,如果无法实现准确的语音断句,那么就很容易出现识别的偏差。举个简单的例子,“小王打败了小李得了冠军”这样一句话,用户在表述中不同的停顿就有完全不同的意思,如“A:小王打败了,小李得了冠军”,“B:小王打败了小李,得了冠军”。 为了提高语音断局的能力,搜狗同传算法通过能量检测和基于深度学习模型的方式,对语音信号进行语音和静音的判断,这样可以跳过对静音片段的处理以提升解码效率,同时语音片断可以分割成多句并行识别,大大提高语音识别的效率。借助深度学习模式,搜狗同传就可以准确识别语音断句,比如上述例子,如果前文表达的是小王的实力强大,这样通过上下文关系搜狗同传就会使用A的短句理解用户输入(图3)。

相关软件

网友评论

加载更多

网名(您的评论需要经过审核才能显示) 回复 [ ] 楼取消回复

本站推荐

换一个

火爆手游

  • 像素僵尸狙击手

  • 命运守护者手游

  • 逆袭幻想传手游

  • 战场世界大战游戏

  • 皮影三国手游

  • 山海洛神赋