爱分析 | 从AI芯片到DUI平台,思必驰打造智能语音技术全链路

  2019-03-04 00:13:23
 
调研 | 李喆 洪军   撰写 | 洪军

 
随着物联网的不断深化,AI专用语音芯片俨然成为语音交互市场关注的焦点。
 
而思必驰作为智能语音市场领先企业,也于2019年1月4日正式发布了其第一款AI专用语音芯片TH1520,打通了思必驰智能语音全链路服务的最后一段里程。
 
 
01
面向泛物联网领域提供
智能语音技术全链路解决方案

 
思必驰成立于2007年,已在智能语音领域深耕了12年,技术及客户在业内均处于第一梯队,成立至今已形成面向泛物联网领域提供解决方案产品体系架构,并且为政府、教育、金融、媒体等领域提供全渠道交互式信息服务,具有良好的AI生态系统。
 
思必驰面向泛物联网领域,基于DUI开放平台,主要提供软硬件一体化解决方案:
 
DUI开放平台以任务式对话为核心,结合GUI和VUI,兼具闲聊与问答等功能。DUI具备信号处理、语音识别、NLP、对话管理、TTS等语音交互技术。不仅提供思必驰自身的智能语音对话功能,更向开发者提供定制对话服务,如GUI定制、版本管理、私有云部署等。
 
与百度DuerOS开放平台,科大讯飞的AIUI开放平台相比,各家平台本身技术整体实力难分伯仲。差别在于平台的内容服务商以及服务的垂直领域,思必驰在车载、家居领域服务已久,拥有大量专业数据。且目前已与高德地图、咪咕、爱奇艺等100多家第三方信源达成合作,平台API产品体系丰富,为消费者提供全方位生活服务功能,例如交通出行、生活服务、影音试听等。
 
据思必驰CMO龙梦竹透露,目前DUI开放平台已打通16个智能家居平台,激活的8000多万台终端设备,开发者数量达17000多位,创建了20000多个技能。典型合作产品有小米板牙70迈智能记录仪、天猫精灵系列智能音箱、京东方BOE画屏、步步高家教机等。
 
在软硬件一体化解决方案方面,思必驰运用麦克风阵列、远近场语音识别、语音唤醒、语义理解等技术,提供基于AI芯片及芯片模组的软硬件一体化服务。通过API接口调用及硬件收费。以广泛应用于车载、智能家居等领域。
 
思必驰最新发布的自研芯片采用双DSP架构,内部集成codec编解码器以及大容量的内置存储单元。同时,该芯片采用了AI指令集扩展和算法硬件加速的方式,使其相较于传统通用芯片效率大幅提升。此外,思必驰芯片在架构上具有算力及存储资源的灵活性,支持算法的再升级和再扩展。
 
 
我们认为思必驰拥有广泛的客户群体,典型客户有阿里巴巴、小米、海尔、京东方等,随着TH1520芯片的问世,一方面使得在产业链条中进入场景更深,提升客单价和LTV,降低成本,促进业绩能够更好增长。
 
另一方面能够提升语音算法与物理之间的一致性与兼容性,使得软硬件一体化产品能够提供更好的用户体验,帮助思必驰更好推进语音技术在智能终端的落地速度。
 
 
近日,爱分析专访思必驰CMO龙梦竹,就智能语音发展趋势与思必驰业务发展进行了深入交流,现摘取部分内容如下。
 
 
02
核心业务为物联网领域

 
爱分析:在物联网业务中,合作方与语音厂商是进行独家合作吗?
 
龙梦竹:在家居场景并不一定是独家合作形式,有可能是多方合作。如天猫精灵用到了我们的麦克风阵列、前端的语音识别和信号处理技术,但声纹识别和NLP部分是天猫自主提供,有的厂商也会同时选用多家合作厂商的技术。
 
但是,在车载后装市场基本上独家合作形式比较多,这里的独家是指该产品该合作方式独家,并不代表这个品牌或车厂跟某一家是绑死的关系。
 
爱分析:前端如声学、远场等方面,不同场景下技术是基本统一的还是会有所定制?
 
龙梦竹:略有不同,例如远场我们也分家居环境跟车载环境,车载里面的远场可能最多用到双麦/四麦。而在家居环境下可能会根据产品的需求分双麦、环形/线形四麦、环形六麦,都不一定。
 
爱分析:当前在车载场景下,限制用户体验的主要在哪些环节?
 
龙梦竹:一是噪声处理,二是对话逻辑。
 
车载场景下的噪声包括人之间的对话、风噪、路噪、胎噪等,而且车载场景驾驶座跟副驾驶座之间的对话角度非常近,容易给机器造成干扰,所以说在这个场景下系统的鲁棒性是非常重要的,也就是说要做到降噪。
 
双麦和单麦更多应用在近场场景,如一米左右的范围,双麦在降噪处理上会比单麦好一些,是因为双麦有两个麦克风,其中有一个是专门能够做到抗噪处理,性能会更好一些。如果需要更好的声纹识别能力,那么更建议采用双麦或四麦阵列
 
对话逻辑方面,现在有很多的车载后装产品,价格参差不齐,主要是因为消费者对这类产品的购买欲望或价格接受度不同。
 
硬件会对语音系统有很大的限制,如果硬件投入少,产品的整个对话逻辑或者交互体验可能都会受限。作为技术提供商,我们更愿意打造标杆性的产品,提供整套对话逻辑和非常好的后端内容,对于后端内容资源的购买、使用也能够提升产品的售价、用户体验。

 
爱分析:家居场景更多是应用环形四麦、环形六麦吗?
 
龙梦竹:家居场景下,由于远场的原因,环形/线形四麦及以上是用得较多的方案。
 
就四麦来看,最初我们推的是线形四麦,180度拾音,主要应用在智能电视、冰箱、洗衣机这些位置比较固定的家电产品。而音箱,你可能把它放在客厅的桌子上,你从四面八方讲话它都要能听得见,所以后来借由为天猫精灵M1做定制推出了环形四麦的方案。
 
环形六麦的效果肯定比环形四麦好很多,但是出于造价的考虑,很多人会选择环形四麦,性价比较高,这也取决于大众的消费情绪。在智能音箱整体价格下降的情况下,厂商用环形六麦的还是比较少的。

 
爱分析:目前在麦克风阵列层面,各厂商主要比拼什么,是识别率吗?
 
龙梦竹:单独讲识别率,就是通用环境下的理想发音人在理想的距离、理想的状态和词汇量下的识别率,各家其实差不太多。
 
识别率永远达不到100%,这是确定的,有可能因为1%的错误率就导致整段话完全无用的,所以我们更看重整体在实际场景交互下的端到端的口语交互系统的自然流畅性。
 
比如说,用英文聊天的时候,如果在指路时把left听成right,即使整句话后半部分都听对了,在第一个拐弯的方向上出了错,整段话也都没有意义了,中文相应来讲还会更难。

 
爱分析:如何收集积累语音数据?
 
龙梦竹:我们自己会积累,我们现在有专门的录音棚,也有专门的数据组,数据团队也有小一百人,有专门做前端数据标注和处理的,数据组的leader在公司已经工作了10年,本身我们就很看重前端数据的积累。
 
爱分析:在家居、车载场景,厂商采用怎样的付费模式?
 
龙梦竹:一般是是预付费方式,厂商会先预估一个出货量,之后我们再按不同的阶段来进行调整。当然还可能涉及到定制开发费、硬件购买费用等多种情况。
 

 
03
DUI打造开放式
对话定制平台

 
爱分析:DUI业务的开展历程?
 
龙梦竹:我们在2013年推过对话工场,那其实是一个简单的平台,我们把所有底层的技术打包成SDK放到平台上对外开放,后来弃用是因为语音交互针对场景是垂直的、需求是刚性的,我们一旦不考虑场景而把单纯的技术开放给企业去运用,就会出现很多问题。
 
到2015年我们推了AIOS,AIOS是一个端到端的解决方案,是针对于垂直场景的定制平台, 2016年我们在整个车载后装市场占据第一位其实靠的就是AIOS,它的开放性、兼容性以及可允许的定制性会更强。
 
之后我们在车载和家居上接触到很多企业,发现有更多的客户想应用语音技术,国外类似技术平台的推出也让我们看到整个市场应用和需求的成熟性。
 
所以我们考虑再次以开放平台的形式把技术开放给大家,2016年成立了DUI的事业部,秘密研发了一年,于2017年7月份首秀、9月份正式发布。

 
爱分析:思必驰的DUI平台主要有哪些亮点?
 
龙梦竹:这个平台我们主打两个亮点,一个是全链路,另一个是超高度定制。
 
全链路是说从信号处理、语音识别、语音合成、语音唤醒、声纹检测、语义理解到内容资源技能开发,思必驰所有的核心技术用户都可以调用。而超高度定制是指针对不同场景的特殊化定制,例如,在家居产品中,客户想要指定名人或者孩子父母的合成音,都可以得到,我们把主动性和定制性都放在了开发者手里。
 
现在一些中小型合作伙伴的基本需求通过在这个平台上进行调用是可以满足的。但是我们对于一些需求量比较大、有大规模的定制化需求的客户,未来还是希望会有一定的商业模式来进行公正公开的合作。

 
爱分析:从公司战略角度,开发DUI平台是布局生态还是有其他商业考虑?
 
龙梦竹:对内来讲,DUI是我们整个的大的底层技术平台,我们把它放到我们所有底层服务的核心里面,目前我们已经把所有解决方案的底层技术全部移植到DUI平台上了。我们也会建立生态,通过平台去发现很多更好的开发者和项目,可能会指导我们的产业投资。
 
另一方面,DUI本身是针对开发者的,是to小B的平台,可以把定制的环节交到开发者和厂商手里,借此公司整个的商务运营模式可能慢慢也会改变,不再都是传统case by case的定制化项目模式,基于DUI本身规模定制化的能力,我们的客户规模也会越来越大,

 
爱分析:思必驰推出DUI平台的优势是什么?
 
龙梦竹:从技术上来讲,现在在语音技术方面,思必驰有非常强的技术优势,市场对我们的技术整体是认可的。
 
在技术认可的前提下,大数据对于平台只是基础支撑,更重要的还是看场景和基于场景的算法优化。我们的主体业务是针对于核心场景(车载、家居、客服、政务等),有垂直场景体验上拥有优势。思必驰作为一家技术平台型公司,保持开放合作态度,积极与内容型公司进行合作,以支撑DUI背后所需要的第三方内容资源服务。
 
除此以外,我们还有底层技术资源的优势,这一部分是其他的创业公司、产品公司不具备的。我们通过平台、基金的方式,可以去跟合作伙伴、友商、投资的生态公司共享一些底层资源,比如我们自己不做教育、医疗,但是投资的一些公司有这两个领域很强的技术优势。

 
爱分析:DUI平台业务团队有多大?
 
龙梦竹:涉及到平台相关项目有近200人参与。
 
除了纯研发外,DUI平台对工程化的能力要求也很高,包括后端的运维、数据的可视化,前端的实热更新的技术等,所以平台上也有工程化的团队。

 
 
04
企业服务领域
首推会话精灵业务

 
爱分析:推出会话精灵的考量是什么?
 
龙梦竹:我们看到谷歌、微软都有发布类似的企业服务方案,这些国际巨头的动作预示着一种新的技术趋势。
 
我们的会话精灵做的是综合性的企业智能服务,核心技术能力是启发式主动对话和复杂知识结构管理。智能客服只是其中一个服务方向。这还是一个蓝海市场,市场教育还比较空白,客户的理解也还不深。

 
爱分析:现在会话精灵主打哪些应用?
 
龙梦竹:除智能客服外,还有资讯分享、任务趋向性的销售助手、教学助手、招聘助手、微信群助手等。
 
针对会话精灵产品,我们现在考虑先做一些解决方案,主要是通用的定制,把知识图谱所关系到的对话管理做成可供选择的模板,但其中图谱的框架是定制化的,每家企业、每个部门、每个人的知识结构和内容都是不一样的。

 
 
05
语音行业强竞争、高定制、长技术链条

 
爱分析:怎么看待语音行业的竞争态势?
 
龙梦竹:语音行业竞争算比较激烈。从业务上来看,大家有自己擅长的领域,但同时,在每个领域也有很多家在竞争。
 
我们现在擅长IoT,在车载场景我们做得还不错,在后装市场份额能到第一。
 
在家居领域,音箱第一是已经拿下了,我们当前会重点再发力电视、白电等,争取早日攻下市场第一。
 
机器人和故事机也是新兴的领域,在这个领域科大讯飞、思必驰、百度的竞争特别激烈,因为这是一个传统的饱和市场的智能化的转型。
 
现在各大厂商之间有竞争有合作,对于一些小的NLP的公司则合作会比较多。

 
爱分析:AI语音相比图像落地难度会更大么?
 
龙梦竹:语音落地难度更大,一是涉及的链条太长,二是应用语音的客户都有定制化的需求,三是在这两个情况下,我们要根据各家硬件产品的性能再去优化处理算法匹配。
 
爱分析:语音数据的隐私性如何?
 
龙梦竹:网上并没有很多干净可用的音频,哪怕下到了这样的音频,因为里面有一些噪音等是人耳朵听不出来的,如果没有指定场景,也会影响到算法。
 
所以如果我们找合作公司买数据时,一定会明确说明我们要的是车载环境下的两人说话的数据等,合作公司会用他的办法去找人录或去采样,而只要是花钱找人采样,就已经告知了情况,相当于合作公司已经获得了许可,允许它拿到用户的声音样本。

 
爱分析:公司在语音全链条技术上都还不断在投入吗?
 
龙梦竹:是的,整个链条上的技术也在不断迭代,但是我认为并不会有哪项单点技术优化后会给整个语音技术带来划时代的变革,这是一个全链条的事情,一定要牵扯到上下游的整体体验,例如,如果识别、内容不好,TTS再好都没用。
 

爱分析:目前技术发展的方向是从感知往认知走的吗?
 
龙梦竹:这是这几年一直在走的方向,我觉得下一步可能是实现抽象思维智能,就像我们在会话精灵中用到的反向推荐一样。
 
如果放到音箱领域,现在音箱的逻辑是:如果用户要听陈小春的歌,音箱放完一首后会自动播放陈小春的其他歌曲。但是如果按照会话精灵的思路,音箱在播完陈小春的歌时会来反向推荐,它会觉得用户也会对郑伊健感兴趣,或者最近有首新歌上线,和用户喜爱的曲风很相似,就会推荐给用户。这样才能完成更好地商业化内容合作。