在利用人工智能(AI)进行语音识别的技术领域,中国科大讯飞是走在世界前列的一家企业。针对这一技术的现状和展望,日本经济新闻(中文版:日经中文网)日前采访了科大讯飞股份有限公司西安研究院副院长付中华博士。采访的主要内容如下:
记者:请您谈谈通过声纹进行个人识别的情况。
付中华:声纹识别技术,是通过声音来鉴别身份。这个技术现在也做得很成熟了,和语音识别几乎是一个水平。但是其问题就在于一定要找到一个非常强的应用背景,才能支撑企业去把这个技术做成熟,做成产品。声纹识别现在可能还没有找到一个特别强的应用场景,从目前来看是这样子的。但是,声纹识别其实有两个概念,一种是通过声音来识别你的身份,还有一种是在司法领域做声纹鉴定。
这个现在是科大讯飞在政法业务当中一个很大的市场。因为随着移动支付的普及,小偷小摸很少了,因为大家偷钱偷不到现金。现在主要的犯罪形式就是电信诈骗。通过电话进行电信诈骗,在这种犯罪形式里面,主要的信息或者说证据就是你的电话录音。这时候对声纹的鉴定需求就越来越高了。因为这个证据如果无法去做得很好的话,对于量刑或者判决都会有很大的影响。声纹鉴定现在是科大讯飞正在发力的一个很重要的应用背景。
记者:已经开始运用了吗?是什么样的领域?
付中华:给司法鉴定专业机构做专门的声纹分析系统。传统的声纹分析系统是针对语音的一些基本声学特征去做分析。比如你的语音是什么特征,然后参照的那个样本是什么特征。现在的技术稍微不一样了,因为有了大数据的加持,也就是说以前需要很多人通过传统的经验来做判断,现在有大数据做辅助的时候,我们的判断就会更加客观。也就说这个人做的鉴定结果跟另外的人做的鉴定结果就会比较吻合,不会有比较大的差别。
记者:提供这种方式的系统,是针对电话运营商还是银行呢?
付中华:这主要是针对司法领域。比如说你打官司,还有另外一个就是这种诈骗电话的即时监听。比如说你正在接通一个电话,如果这个电话的对方的声纹是一个在我们嫌疑犯的声纹库里面的声音,那么这个诈骗电话可能就被挂断了。系统会直接告诉你这是一个诈骗电话,就不会继续再进行下去了。这个现在已经有实际的应用在产生了,因为现在诈骗电话、骚扰电话特别多,所以我们的技术可以通过积极干预的方式,能够有效地把这种情况遏制下去。
记者:什么时候开始运用?
付中华:这个现在还不是一个大规模的推广,但是已经在不同的地方开始进行试点,从2018年就开始了。在一个地方试点成功之后,有一些成功的经验才能进行大规模推广。AI的产品需要在实际应用当中去打磨,这样才知道在真正的场景应用里面对技术有什么需求。打磨熟练之后才可能向其他的地方去推广。
记者:你个人觉得大规模推广的话,全国性的普及是什么时候?
付中华:我觉得不会太长时间了。只要两三年时间可能就会大规模出来。人工智能发展到2019年,就出现了一个浪潮发展到一定阶段,大家开始要洗牌或者要淘汰泡沫的阶段。在这个阶段,大家会更关注它的实际应用。比如某个技术做得很厉害很牛,但是你需要找到应用,解决实际当中的应用问题。
这时候大家就需要弯下腰来,跟实际的产品去找到它的应用的切合点。所以我估计在最近这几年会有一个比较大的变化,有些企业会脱颖而出,而有很多企业可能就支撑不下去了。因为找不到自己的应用点,所以我估计再过两三年应该就会有一个比较明显的变化,有些应用就会大放光彩,有些应用可能就不行。
记者:在方言方面的语音识别业务进展如何?
付中华:语音识别对于方言来说,是一个很大的挑战。但是它的解决方法也是一样,应该说现在科大讯飞在中国主要的方言区都做得比较好。现在比较难的是,有一些方言的使用人数已经非常少了。而且能够掌握两种语言的人就更少了,他们也没有经过培训,所以让他们来标数据,是一个很大的挑战。
少数民族语言也是这样的,有些少数民族语言和他的文字都不太配得上,这种时候对这种语言的支持就比较弱。这种情况就不能单靠企业的力量,需要政府的投入来做这些事情了。对于企业来说,肯定是该项技术运用的人数越多,企业的效益是也更好的。