36氪|语音识别+歌声合成,思必驰想让普通人“读诗成曲”

  2019-03-04 00:03:49
在小年夜,中央电视台《经典咏流传》第二季节目中出现了一款“读诗成曲”的在线互动小工具,用户仅需要朗读一段诗词,就可以听到用自己声音演唱的经典诗词唱段。那这是怎么实现的呢?
 
 
原来,“读诗成曲”的背后是思必驰提供的个性化歌声合成算法。歌声合成技术是语音合成(TTS,即 Text to Speech)的衍生品,其关键区别在于韵律预测模型不同。在普通TTS系统中,通常有个韵律模型来根据句子的内容和语调环境预测每个音素(音节)的时长和音高曲线。在歌声合成中,这个韵律模型则更换成由乐谱来预测每个音素(音节)的时长和音高的歌曲韵律模型。最终的生成过程仍然跟语音合成类似,将韵律参数和频谱参数结合,生成歌声。
 
在“读诗成曲”中,韵律预测模型可以使得机器根据人说话的语调合成歌曲,且根据唱段的韵律和节奏调整音调,这又是如何实现的呢? 思必驰北京研发院院长兼副总裁初敏博士告诉36氪:韵律方面,思必驰在原有歌曲韵律模型的基础上增加了个性化学习技术,结合曲库和名曲唱段的特征生成相应的韵律曲线,使歌曲韵律特征尽量接近名曲唱段的特点;在语调方面,思必驰应用了声学模型的个性化学习技术,使得生成的频谱参数尽量接近用户的声音,通过将接近用户的频谱参数和接近名曲唱段的韵律参数结合,就能生成用户“原声”唱出的“经典”曲调了。
 
36氪注意到,这并非思必驰首次将个性化歌声合成技术运用于泛娱乐领域,此前在央视节目《机智过人》中,思必驰团队的“小驰”机器人就曾用撒贝宁的声音演唱过《好久不见》。不同于以往,此次“读诗成曲”则在曲目和参与度上更为开放,支持任何用户从既定曲库中自选歌曲,曲库主要来自节目第一季、第二季嘉宾的演唱曲目。
 
近两年,语音合成技术进入商业落地加速期,除BAT大厂纷纷着眼外,此前36氪也曾报道过标贝科技等创业公司。除了在泛娱乐领域布局,思必驰又会如何将语音合成技术商业落地呢?据初敏博士透露,思必驰更多会将语音合成技术与语音识别、口语理解等算法配套,为泛物联网领域产品提供全链路对话交互方案。
 
具体来说,思必驰当前的业务围绕四个AI进行整体布局:AIOT、AI芯片、AIBOT、AI生态。AIOT业务在泛物联网领域(包括智能车载、智能家居、智能玩具/机器人、智能手机等)提供软件、软硬一体化、Turnkey一站式等多样化方案。在车联网后装、智能音箱、儿童平板/故事机、知识机器人等领域市场占有率均第一,在汽车前装、电视/白电、智能客服等重点领域市场增速领先。未来,思必驰将以“云+芯”战略方向为主,整合智能终端方案能力与全渠道智慧服务能力,形成All In One解决方案,进入酒店、地产、物流、养老、医疗、教育、安全、社区等更多行业。
 
据悉,在语音合成领域,目前思必驰已可以提供标准男女声、童声、名人合成音等,在最新推出的DUI平台Voice Shop中,提供100+特色的高自然度合成音,并为不同厂商提供个性化定制服务打造voice-IP。