雷锋网 | 开放DUI平台的背后,深藏用AI赋能开发者的野心

雷锋网  2017-08-11 14:25:14

这个月初,智能音箱市场又加入一名玩家——阿里推出了499元的天猫精灵。虽然与大家前期猜测一致,但这个市场还是因为阿里的加入变得越发有趣了。
 
对标亚马逊Echo,天猫精灵一大亮点就在于声纹识别,用户可通过自己的声音完成购物支付验证环节。除了阿里自研芯片AliGenie提供的NLP和声纹技术支持之外,天猫精灵的语音交互技术则综合出自思必驰提供的方案。
 
思必驰VP赵恒艺告诉雷锋网,这次天猫精灵的语音交互技术,包括环形六麦阵列、回音消除、降噪、语音增强、语音识别、语音合成,都是思必驰提供的。
 
在AI领域,相较搜狗、科大讯飞这类语音技术大公司,一直给B端提供技术方案的思必驰,显得并没有那么闪耀。然而,在如今语音交互已变得无所不在的大环境下,思必驰正在想的、做的,远比大家看到的,要多得多。
 

语音交互日渐无所不在:思必驰发布DUI开放平台

 
在今年的CCF-GAIR 全球人工智能与机器人峰会的第一天,思必驰也同地同期举办了旗下对话平台DUI的首秀会。思必驰DUI(AISpeech Dialogue User Interface)是一款高可用定制化的人工智能对话平台。据赵恒艺介绍,DUI是在AIOS人机对话系统基础上的一个升级,所有的工作都能围绕对话去展开。
 

图1
 
在来思必驰之前,赵恒艺原是乐视旗下乐乐语音CEO,在语音交互上积累了相关模块化经验。去年加盟思必驰之后,赵恒艺告诉雷锋网,当时国内外还鲜少有公司在做语音交互类的可定制化平台。历时大半年的“艰难狙击”,赵恒艺带领团队终于提前将这款产品带到了众人面前。
对比亚马逊Alexa平台,思必驰DUI平台在使用门槛上为零,无需注册即可使用。场景覆盖物联网和移动互联网,而“云+端”的模式也可在无网的情况下提供服务。
 
据赵恒艺介绍,思必驰DUI平台主要有以下几项特色功能。
 
1、“云+端”模式,支持本地技能开发
 

图2
 
为什么选择这一模式?
 
据赵恒艺介绍,思必驰在智能车载领域积累了很多经验,他们发现,很多设备在户外场景下,无网情况下基本很难做到高可用。而在以亚马逊带头的全行业的语音交互平台来看,普遍基于云端平台,对网络的稳定性要求很高。这让此前已经拥有不错的云端能力的思必驰开始考虑,是不是可以和市面上主流的对话平台不一样——以“本地+云端”的方式,打造一个在无网情况下依然可以做到高可用定制化的平台。
为此,思必驰在本地加入识别引擎,并定制了一些Skills,可为开发者和用户提供低功耗、语音唤醒、离线识别等本地功能。
 
2、全链路扩大可定制化范围

 

图3
 
在和客户、开发者打磨产品的过程中,赵恒艺和其团队发现了很多痛点需求,比如,很多客户希望更高效的定义唤醒词,实现在线更新。而有些热词识别错误或语义解析错误,在当前需要重新训练模型,效率很低。还有一些客户想做出更大差异化体验的产品,对交互流程的各个环节也都有自己的想法。
 
考虑到这些痛点,赵恒艺和其团队决定向开发者全部开放思必驰DUI平台的核心能力,并将其可定制化范围扩及全链路,包括唤醒词定制及参数设置、语音识别、语言模型、语义解析、多轮对话、自然语言生成和语音合成等。用户不仅可以定制语音唤醒词、技能深度、语言模型,还能在不用更新移动端APP的情况下实时更新资源,包括唤醒词、合成音、识别引擎、热词、语音语义、GUI等等。这些都是增量更新,每次更新可能只需消耗几十K几百K的流量。
 
3、从垂直场景走向通用领域
 

图4
 
此前,思必驰主要聚焦在智能车载、智能家居和机器人三大领域,而基于DUI对话平台的应用将进一步扩及通用领域,如增加了故事机、移动应用、微信公众号等产品。
 
赵恒艺表示,随着语音交互行业成熟度的稳步提升,消费者群体对该技术也有了更大范围的认知,必然会衍生一些新的业务形式。
 
4、可视化数据:基于语音、文本对话交互
 

图5
 
思必驰设立了一只专门负责大数据和用户运营的团队,在此平台上推出基于语音、自然语言对话交互的可视化大数据平台。赵恒艺表示,开发者可在DUI上自定义开发周期、维度和范围,并能查看实时统计数据。
此外,DUI平台还提供以多轮对话为主,兼具闲聊问答的综合对话服务,具备算法降噪、回声消除、语音识别等多种能力,并支持不同场景下的技能需求,如生活服务、交通出行、社交分享等。
 

B端作风C端思维:加码用户+数据运营
 
在乐视的3年时间,赵恒艺和其团队全权负责乐乐语音在终端产品上的语音核心技术和用户运营,这段经历让其积累了如何面对和处理几百万用户需求的经验和能力。同时,也让赵恒艺此次带领的团队丝毫不缺乏对C端用户的敏感度。
 
当雷锋网问及在2C和2B公司工作到底有哪些不同时,赵恒艺表示,之前在乐视因为是甲方,所以对用户痛点更加了解。现在所在的DUI平台,其实也包含2C的因素。赵恒艺拿安卓系统举例,安卓系统本身其实是一个2C的系统,但仍然需要安装在各类品牌厂商的手机上,也和许多方案商进行了合作。
 
“DUI平台类似于AI领域的安卓,我们最终希望能借其带给终端用户一个好的用户体验。另一方面,做一个平台需要对各个模块进行解耦,将技术赋能给合作伙伴,以满足方案商和品牌商的需求。”赵恒艺告诉雷锋网,DUI平台提高开放范围和深度,一方面不仅是为了给开发者提供更好的服务,另一方面还在于思必驰看中了藏在项目背后的用户运营的价值。
 
在赵恒艺看来,“后向运营是把用户和思必驰建立连接的最好方式”。所谓后向运营的对象,即为使用DUI平台给自家产品赋能的厂商的用户。
 
赵恒艺表示,很多智能硬件厂商,缺乏用户运营的经验。所以,由思必驰在DUI平台赋能的可视化数据能力、语音交互功能、热词更新、语音语义更新等功能,可让实际使用这些厂商产品的用户获得持续更新的体验。“获得良好体验的用户,又能将这种感受通过社群等方式反应给厂商”。这实际上是一种“三方共赢”的方式——用户体验好,厂商获得运营收入,思必驰也能获得因B端公司特性而缺少的C端用户数据,从而更好地改善平台的功能。
 
同时,思必驰也一直在优化其平台的语音交互体验,比如,拉了一个几十人的数据团队,专门标注各类数据,如语音识别、语义分析等。
 
此外,思必驰还设立了一个2亿元的孵化基金,以支持平台上出现的优秀项目和合作伙伴。
 

如何看待BAT巨头涌入语音交互市场?
 
然而,作为一家创业公司,虽然思必驰在语音交互技术上已深耕十余年,但也依然受到巨头们“下场子”的压力和威胁。
 
以语音交互技术应用最为广泛的智能音箱市场为例,目前整个智能音箱市场已呈现“以亚马逊Echo为排头兵,国外有Google、微软、苹果、三星,国内有联想、腾讯、阿里、小米相互追随”的态势。阵营越发强大,竞争也日渐白热化。
那么,作为夹在巨头和C端产品公司中间提供技术服务的思必驰,又该如何应对?
 
在赵恒艺看来:
这个市场够大,大到充满了想象力。然而目前的一个行业现状在于,目前真正有影响力的公司应该还不超过10家,各行各业都有可能被AI所赋能。”
 
每家巨头的基因和特质都不一样,一些互联网出身的公司也开始在硬件方面做出尝试。然而目前的语音交互技术还远未达到立即可用的程度,所以要打造一款很好的产品依然很难。必须要特别接地气的和厂商们泡在一起,长时间的去打磨产品。”
 
一些产品型公司加入这个战局,可能会陷入某些互联网巨头之间的竞争,而很多产品型公司并不想站队,这对于思必驰这种处于相对独立的技术服务商而言,可能会是一个很好的机会。”

 
事实也是如此。赵恒艺告诉雷锋网,除了给阿里天猫精灵音箱提供语音交互技术支持以外,思必驰还和联想、小米等大公司均有智能音箱上的合作。
 
“思必驰不愁现在,也不愁未来”,赵恒艺颇为自信道。

 
中国版Echo音箱为何还未出现?
 
就现阶段而言,国内已有非常多的语音交互技术和智能硬件结合的案例,也有不少优秀的语音技术公司和硬件公司,但仍然未能做出一款能与亚马逊Echo并肩的产品。关于这一现状的原因,业界也频频有探讨之音。
 
所以,在雷锋网(公众号:雷锋网)问及这一问题时,赵恒艺先分析了亚马逊成功的原因。
 
“亚马逊在智能音箱领域早进入好几年”,赵恒艺说,“他们在这一块耕耘的很好,其中离不开四大要素”:
 
1、渠道优势。
2、内容优势,比如音乐。
3、美国完全区别于中国的室内环境。
4、亚马逊培养了很好的生态。目前在ALexa平台建立的Skill已经超过了15000个,这是一个很丰富很庞大的生态。

 
作为一个先行者,亚马逊已经占据了最大的时间优势。
 
而就目前国内环境而言,首先是来自用户使用习惯的阻碍。赵恒艺笑言,“有时候,做智能音箱,最大的竞争对手往往不是我们的友商,而是手中的手机”。国内的消费者普遍是重度手机使用用户,这给智能音箱的推广和普及带来严重阻碍。其次,国内的内容环境也不容乐观,如智能音箱的基础内容——音乐资源,在国内就乏善可陈。
 
当然,最大的阻碍因素还是来自大众的认知。目前的现实情况就是,“如果你去问一个不是这个行业的人,他们可能真的不知道智能音箱是什么东西”。
 

结语
 

谈及未来是否会有研发消费级产品的心思,赵恒艺的B端作风立显,“思必驰绝对不会去做自己的智能音箱,我们的主要重点就在于把语音交互的对话技术赋能给开发者。”
 
赵恒艺说,“在此期间,思必驰就扮演好自己的角色,这些产品终究会按照规律自然而然的发展。”