首页 > 找报告 > 得意音通郑方:能面对关键难题的公司才能长跑 | 兵器谱访谈录

得意音通郑方:能面对关键难题的公司才能长跑 | 兵器谱访谈录

调研 温泉零壹财经 2020-01-14 免责声明

关键词:兵器谱访谈录得意音通郑方声纹识别

在金融业的身份认证当中,声纹识别几乎是绕不过去的一个选项。
数字科技正越来越深刻地改变着金融行业的生态,各家机构都在数字化转型中快速迈进。针对这一转型大潮,数字科技公司基于人工智能、大数据、云计算、区块链等技术,助力金融业务的数字化、智能化,创新产品和服务,这些产品和服务,正如一件件提升效率的“兵器”。

基于此,零壹财经推出零壹兵器谱项目,调研和报道那些走在创新前沿的数字科技公司。


资本寒冬中,到处都是坏消息,不过声纹识别是个例外。

“目前我们B轮融资的各项协议正在签署当中。融资完成后,我们将开始大力拓展声纹识别的市场应用。”2019年12月30日下午,在海淀区双清大厦,得意音通创始人郑方向零壹财经透露。

作为中国声纹识别领域的开拓者之一,得意音通成立于2002年,是2000年前后诞生的中国第一批声音识别类技术公司中的一家,其团队核心成员主要来自清华大学。十八年来,得意音通从声音识别类的多种技术逐渐聚焦于声纹识别,并攻克了声纹识别从实验室到应用中的关键难题,推动了声纹识别从实验室走向大规模实际应用。

受益于得意音通对声纹识别关键难题的突破,声纹识别领域也在资本寒冬中站上风口。基于技术应用的逐渐成熟,2018 年10月9日中国人民银行颁布《移动金融基于声纹识别的安全应用技术规范》,得意音通是该标准的主要推动者和起草者之一,它是中国金融行业第一个生物识别技术标准,将大大推动声纹识别技术在金融业的应用,甚至进一步带动声纹识别技术在其他领域的大规模应用。资本已经闻风而动,2018年下半年开始,声纹识别领域的数家公司密集获得融资。而得意音通早在2013年和2015年就已经拿到两轮融资。

经历了融资后大约三年左右的市场培育期,声纹识别这项早期多应用于军方和公安系统的神秘技术逐渐走入普通人的生活。基于开拓者得意音通的实践探索,金融业成为声纹识别第一个进入大规模应用的行业。未来,声纹识别作为网络时代身份认证的关键技术,极有可能成为金融业的“刚需”。

开拓者得意音通,也在经历与难题“死磕”的十八年之后,开上了快车道

试水商业应用

开启声纹识别领域商业应用的里程碑产品是得意音通的“声密保”。

这是基于声纹识别技术和语音识别技术开发的一套身份认证系统。该系统在进行身份认证时,会随机产生一组数字串要求用户读出,系统对用户发出的声音进行数字串和声纹双重识别,从而实现对用户的身份认证。

这项专利的核心想法来自得意音通创始人郑方。系统随机给出数字串,请用户读出并进行识别,这个背后有诸多技术支撑而对用户简便易行的方法,解决了声纹识别领域多年来的应用难题。

在“声密保”诞生之前,声纹识别在商业领域还没有应用。那时,声纹识别主要应用于公安领域案件侦查,需要长时间的大段语音才能奏效,而且识别的准确度“不可衡量”。通过声纹,不少犯罪嫌疑人可以被识别出来,但不是所有的犯罪嫌疑人都能被识别出来,识别的准确率是多少不一定,也说不清楚。因此,声纹识别的应用范围有限。

“声密保”的诞生改变了这一状况。这一在4G时代大显身手的产品,从3G时代就开始了探索。

2009年,为了提高电话银行的安全性,中国建设银行个人金融部到处寻找解决办法。当时在业内已有名气的得意音通被朋友推荐给建设银行,以解决用户与客服人员打电话过程中的身份核验问题

电话银行与公安的需求完全不同,用户打电话办理业务就是几分钟时间,没有大段识别的语音材料,必须在很短的时间内完成声纹识别,这个难度超出了声纹识别以往的应用经验。

迎难而上,2010年5月,得意音通中标“中国建设银行电话银行95533声纹身份认证系统”项目。声纹识别首次闯入金融业。

从此,声纹识别从公安领域走向一般商业应用,开启了全新的旅程。郑方向零壹财经回忆时总结:“这次试水不仅积累了极为宝贵的工程化经验,更为后来‘声密保’的诞生埋下了伏笔。”

与难题“死磕”

不过,麻烦接踵而至。

走出实验室,开始试用于中国建设银行电话银行的声纹识别技术遇到一连串问题。

在“声密保”之前,要实现较为准确的声纹识别,至少需要10秒左右的语音,用户体验不好。再有就是,人的声音是随着年龄不断变化的,但是关于如何变化却缺乏相关研究,这导致声纹识别系统在实际使用中,过了一段时间之后,就渐渐不灵了。还有,同一个人的声音,经过不同的信息传递通道之后,听上去会不同。

为了解决问题,得意音通开始了与这些难题的死磕。上述问题只是实际中遇到问题中的一小部分,实际中一共有十几个问题,得意音通一一进行了研究,还将研究成果结集出书,在Springer出版社出版。

这一研究就是十年,很多问题的研究从2009年开始一直持续至今,甚至还要持续更长的时间。比如要做前述关于人的声音随时间变化的规律的研究,就需要持续多年追踪同一人声音的变化。从2009年开始,得意音通开始建立人的声音随时间变化的数据库,到目前为止,这个数据库的数据积累已经超过10年。由此,得意音通建立了目前全球唯一一个同一人群声音随时间长年变化的数据库。

当时,中国建设银行和得意音通合作的项目经费大约为几百万元。但是为了真正从根本上解决合作中发现的问题,得意音通硬是自掏腰包投了上千万。

与难题死磕的这些年,对得意音通来说是相当寂寞的。同为语音识别领域的公司,2008年5月,科大讯飞成功登陆深交所,成为中国第一家在校大学生创业成功上市的公司。郑方的另外一个职务是清华大学语音和语言技术中心主任,他带着博士生和硕士生们研究这些问题时发现,很多问题在国际上也没有人研究,找不到相应的参考文献,所有问题都要自己积累原始数据、从头开始研究。

“当时在语音技术的其他领域,我们的研究顶多是‘锦上添花’。但是在‘声纹识别’这个领域,我们感到自己是‘雪中送炭’,当时研究的很多问题,我们感受到在实际中其实需求是非常迫切的。”郑方向零壹财经解释与难题“死磕”的初衷。

但是在电话银行时代,声纹识别并没有在金融业形成大规模应用,因为那时电话银行用声纹识别面临基础设施的瓶颈。3G时代的传输带宽不够,这导致声纹识别应用等待时间较长,用户体验并不是很好。

2014年左右到来的4G普及,改变了这一切。

搭上移动互联网的快车后, 手机银行开始迅速普及。在大开方便快捷之门的同时,用户对时间的使用容忍度进一步降低。在手机银行的应用中,语音的长度一下变为2秒以下的超短语音,声纹识别的难度进一步增加。

正是这个难题的出现激发了“声密保”的诞生。为了解决这个问题,郑方想出请用户读取随机数字串的方法,一般用户只要读取6或8位数就可以,用时仅为几秒钟。这个巧妙的解决方案,使得声纹识别这项技术的应用难度大大降低。“声密保”也因此一问世就荣膺2013年度的“中国语音创新产品”。

当年,中国建设银行在手机银行中开始以白名单方式试用“声密保”,并于2016年6月18日对普通用户正式开放,主要应用在登录、取款、转账、支付等多个场景。上线之后,据得意音通披露数据,中国建设银行手机银行自发使用声纹进行身份认证的用户量激增,截至2017年9月15日,总交易次数突破1.4亿次。在该功能正式启用之后,中国建设银行甚至将手机银行交易额度上调至50万元。

“爆发式”增长

“声密保”在中国建设银行的成功,让金融业发现了声纹识别,也让资本发现了声纹识别。

2018年,涉足声纹识别的4家公司都拿到了亿元级别的融资。在生物识别领域,声纹识别一下崛起成为全新的赛道。

图:声纹识别公司融资情况

来源:《中国声纹识别产业发展白皮书》

郑方的演讲邀约猛增。面向产业界的演讲,2015年,郑方全年也就2次。2017年,他的演讲邀请次数猛增到17次,2018年更是翻一倍到了34次,2019年的演讲邀请更是多得接不过来,不得不推掉一些邀请。

在生物识别的各领域中,声纹识别是性价比较高的。根据美国非营利性联邦资助研发公司MITRE的报告,在生物识别所有领域中,声纹识别的准确率排名第二,仅次于虹膜识别,目前大规模应用的人脸识别的准确率排名在第五。同时,声纹识别的应用成本也是比较低的。郑方向零壹财经解释,一般来说,生物特征的识别成本主要包括数据采集、传输、计算、存储和用户使用成本,因为声音与图像、视频等相比数据量非常小,因此它的应用成本在所有生物识别技术当中也是较低的。

与其他生物识别技术相比,作为一种身份认证手段,声纹还具有一些不可替代的优势。第一,不易丢失。不同于指纹、虹膜、人脸等静态的生理特征,声纹作为一种动态的行为特征,不容易丢失,可以做到“失声(音)不失身(份)”;第二,难以伪造。声纹蕴含于人的语音当中,而语音是千变万化的。即便人两次读相同的内容,也不可能发出完全相同的声音。正是声纹这种“蕴不变于千变万化之中”的特性,使得声纹特征更加深层、难以琢磨,伪造起来也更为困难,因而认证强度更高、更安全;第三,隐私性弱。在一般的大众认知中,人们在很多场合下往往不愿意被拍照或者按手印,但采集一段随机数字串的发音,对于大众更加容易接受。而且,人的照片如果泄露会对隐私造成侵犯,但是人随机跟读的数字串的声音泄露不会对隐私造成侵犯。

因此,在金融业的身份认证当中,声纹识别几乎是绕不过去的一个选项。目前金融业用来做身份认证的生物识别技术有指纹、人脸识别等,任何单一的生物识别技术都有一定的不足。指纹和人脸都容易被复制。据外媒报道,美国一家名为Kneron的人工智能公司使用3D面具突破了人脸识别系统。同时,人脸数据的泄露目前成为一大问题,其对个人隐私保护形成不小的挑战。而声纹识别可以很好地解决这些技术的短板。

“声密保”的应用迎来了“爆发式”增长,得意音通也顺势走上了快车道。2013年和2015年,得意音通分别拿到A轮和A+轮两轮融资,是目前中国的10余家声纹识别公司当中首家拿到融资的公司。2017年,“声密保”在贵阳银行兰州银行民生银行落地应用。到2019年底,“声密保”落地的银行已经达到将近20家,中国银联、国家信息中心、中国互金协会、国家政务服务平台等也都成为了得意音通的用户。郑方向零壹财经披露的最新数字是,得意音通的声纹识别技术在移动金融市场占比已经超过75%。

正在进行中的B轮融资完成后,得意音通的计划是大力推动声纹识别在金融业的落地应用,同时也将逐步推动声纹识别在其他行业的应用,如社保、医保、电子政务、公安等。

未来,郑方向零壹财经表示,得意音通将致力于成为一家“身份认证服务提供商”,而不仅仅只局限在“声纹识别”这一个技术领域。自2002年成立以来,得意音通在语音识别、声纹识别、语种识别、情感识别、语言理解等多个领域都有技术储备。郑方看好的是,未来在实践中以问题为导向,让声纹技术和人工智能领域的其他技术在底层深度结合,一起来解决问题,提供更好的用户体验。

不怕巨头

不过,闻声赶来的,不只有资本,还有竞争者,其中包括巨头。近日,人工智能独角兽科大讯飞对外表示,将在两到三年内在全国推出声纹识别系统。平安科技金融壹账通联合项目组与广发银行签署了声纹核身项目,将在银行预防欺诈、提供优质服务方面发挥作用。甚至,腾讯云也推出了声纹识别。

但郑方向零壹财经表示,得意音通并不惧怕巨头。按照以往的认知,巨头在人工智能应用方面有天然的优势。因为人工智能需要有大数据作支撑,巨头拥有大量的数据,这是一般的创业公司所不具备的。但是,郑方向零壹财经指出,“大数据+深度学习=人工智能”这个认识是片面的,人工智能的本质不是大数据和算法,而是“知识表示”,即对事物的根本机理和内在本质特征的认识,这一点在国际上越来越有共识。很多时候,人工智能需要的不是大数据,而恰恰是小数据。所谓“拥有的数据量越大越有竞争优势”只适用于“闭集问题”,不适用于“开集问题”,而声纹识别恰恰是个“开集问题”。

“开集”和“闭集”是数学集合中的概念。郑方解释,放在生物识别领域,通俗地理解,闭集问题,就是所要识别的对象(即人)都在系统已有的数据库当中,是固定不变的;而开集问题,就是所要识别的对象不一定都在系统已有的数据库当中,在用的过程中这个对象的集合是不断变化的。要解决闭集问题,数据量大是可以提高识别的准确率的,比如语音识别是闭集问题,因为识别对象是音素或声韵母,对某种语言该集合是确定的、不变的。但是要解决开集问题,不能靠大数据,而需要靠对事物根本机理和本质特征的把握,声纹识别就是开集问题,在任何一个场景的应用,其用户都可能随时变化,而且是没法穷尽的,因此必须靠对声纹本质的把握来做识别。

具体到声纹识别领域,郑方认为需要完全解决制约声纹识别大规模商业应用的关键问题,比如人的声音随时间的变化问题、超短语音识别问题、防假冒攻击问题、情感识别问题、噪音问题、语音的跨信道识别问题等等。要解决这些问题,需要针对特定问题进行数据积累和研究,这就是过去将近二十年的时间里得意音通所做的事情。对这些根本机理和本质特征的把握,并不是巨头在短时间内靠大数据可以做到的。

警惕“劣币驱逐良币”

对于声纹识别的骤火,郑方向零壹财经表示,要冷静看待。他提醒,众多的声纹识别技术类别的成熟度不同,目前完全成熟的只有“用文本提示的方式进行说话人确认”这一种,这也是央行标准所采用的方式。

在声音识别领域耕耘了将近20年,声纹识别站上风口之后,得意音通迎来的不只是巨大的商业机会,与之相伴随的还有市场乱象。郑方不无忧虑地向零壹财经表示,希望声纹识别市场能够健康发展,能够避免“劣币驱逐良币”的现象发生。

声纹识别火了之后,得意音通惊讶地发现市场上出现了很多不明来由的机构。声纹识别是由技术驱动的行业,以往这个行业特别小,所有公司加起来不超过10家,这些公司的技术来源不外乎清华大学、中国科学院、厦门大学、美国以及香港等。但是近一两年来冒出的公司很多不明来源,甚至有之前在医美行业的公司也进来了。

郑方告诉零壹财经,对于行业中像得意音通一样扎扎实实耕耘技术的公司来说,接下来有一场硬仗要打,这使得整个行业都非常困惑。

这个困惑就是,没有技术创新的公司反而会在初期的市场竞争中占有优势。由于国内知识产权保护的不够完善,不少公司是靠抄袭创新公司的产品和解决方案来忽悠市场。这些公司没有技术研发成本,因而在进行市场推广时,可以给到客户更低的价格。在初期,市场缺乏对产品好坏的辨别能力,因此,价格更低的公司更容易开拓市场。

但是,这些抄袭产品的公司只能抄袭到产品的表面,却没有相关的技术实力去解决实际中面临的根本问题,这种产品在经过一两年的应用之后,往往会出现很多问题。郑方举了个例子,比如“声密保”这个产品,用户在进行身份验证时,系统会给出随机的8位数字,用户只要读出这8位数字,系统就可以自动识别用户身份。抄袭者只能抄走这个解决方案,但是却拿不走背后的专利。比如人的声音随时间会变化,得意音通的产品能够扛住时间的检验,在多年的应用中能够持续识别人的声音,因为到目前为止得意音通对人的声音随时间变化的规律已经积累了长达10年的数据和研究,而且这项研究还将不断继续。抄袭者的产品在应用一两年之后就会逐渐失灵,识别准确率大大下降。而且作为身份认证的解决方案,“声密保”还嵌入了其他功能,比如防假冒攻击、真实意图理解等,这些功能的背后是得意音通有大量专利的技术支撑,抄袭公司更是难以复制。

“我们担心的是,许多客户在用了这些产品之后,一旦发现不好用,他们形成的观念,很可能不是‘这家公司的产品不行’,而是‘声纹识别这个技术不行’。这样的话,整个市场就做死了。”郑方向零壹财经表达了他的忧虑。

麻烦的是,像得意音通一样在技术方面进行自主创新的公司无法把价格降到和抄袭者一样低。如果价格降得太低,得意音通们最终将陷入恶性循环,走入死局。郑方解释,与抄袭者相比,得意音通们有两方面支出是非常高的,一方面是多年技术研发的投入,另一方面是给创新人才的激励。比如,在与中国建设银行的合作中,为了解决问题,得意音通砸进去的研发投入数以千万计,大部分是自掏腰包,这些付出的成本需要在产品应用中回血。同时,在目前的市场环境下,各家公司都在抢人才,必须给予创新人才以相应的激励回报,不然就会形成人才流失,公司创新能力降低,陷入恶性循环。

与价格相伴随的目前声纹识别的付费模式也是个大问题。郑方告诉零壹财经,目前市场上大多数公司的销售方法都是“买断”,就是客户花几十万元就可以购买一套声纹识别系统。这个付费模式不可持续,因为人的声音随着时间会发生变化,因此声纹识别系统在卖出去之后,需要后续的维护和服务,不然系统识别的准确率会下降,会带来业务上的很多问题。防假冒攻击的方法也需要不断完善,就像病毒库需要不断更新一样,否则安全性无法保障。但是现在许多客户并不知道后续可能会面临什么问题,再加上恶意竞争,就会仅从价格考虑去接受“买断”的付费方式。

“我们在价格竞争上往往不占优势,但是我们的服务质量和水平会被时间证明的。很多机构都是之前用了别的厂商的便宜方案,吃了亏之后才找到我们,最近一年我们的很多客户都是这么来的。”郑方苦笑道,他向零壹财经表示:“这样,我们付出的代价是巨大的时间成本。再加上劣质产品功能不完善,若造成的身份认证差错,如果用在金融业,将造成用户的财产损失。我们非常希望市场能够尽早认识到这个问题,能够更加健康、良性地发展。”

扫描下方二维码添加微信,与作者交流

耗时 132ms