News秒速赛车新闻中心
秒速赛车行业资讯 秒速赛车微信资讯 秒速赛车公司新闻 秒速赛车活动预告

百度强势入场AI们集体打 call:揭秘

TIME:2018-08-05   click: 168 次

  原标题:百度强势入场,AI们集体打 call:揭秘百度智能客服背后的语音技术与应用

  这个潮流的最近一次上演,百度强势入场AI们集体打 call:揭秘百度智能客服背后的语音技术与应用是几天前的百度AI开发者大会上,李彦宏现场播放了百度AI客服邀请开发者的真实电话录音。

  当时我就在现场,第一通电话里那位开发者方言比较重,到底说了什么我基本没听懂。但百度的AI却应对自如,在电话中回答了各种问题。

  第二通电话更神了,那位女开发者发现了小度的AI身份,直接问百度给ta发钱吗,结果被小度用一句“百度给我免费充电”,巧妙的“回撩”了过去。

  在众人的惊叹中,我们很容易发现让AI打电话已经成为了“兵家必争”之地。前不久谷歌I/O大会上Google Assistant演示AI打电话订餐厅,一句“嗯哼”也安排得明明白白。几天之后微软的AI大会上马上反击,不仅上演电话秀,还高调Diss谷歌,表示微软小冰已经打过60多万次电话了。

  事实上,在这个AI跟陌生人直接进行有效沟通的场景里,隐藏着两个AI语音与NLP技术的核心关卡,足够给今天AI公司的军备竞赛提供完美肌肉秀。而AI打电话同时也指向另一个问题:AI到底能干什么,是不是在很多领域已经可以完全代替真实的产业劳动?

  我们知道,人和人之间的交流,其实绝大部分依靠的是简单的词汇量+大量复杂的情感词、语气词、助动词。如果我们把日常说话直接转化为文字,会发现文档里80%的话都是“无效信息”。

  但怎么让AI学会这些东西,像真人一样有感情、有顿挫,有语气词,甚至有呼吸节奏地与人交流,是一门巨大的技术挑战。

  百度AI开发者大会前,百度AI客服给大量开发者打了电话,其中很多开发者一开始压根没有发现这是位AI小姐姐。而这其实是建立在它没有刻意修饰机器音的基础上。

  如何让AI听起来像人一样,这需要在语音合成与语序修饰上下一番功夫。而这也是各家展现本领的时刻。

  根据资料,谷歌I/O大会上的打电话AI,使用了生成式 TTS 引擎。能根据不同的情境控制语音的语调,并生成一些语气词。当然,这背后还有DeepMind的WaveNet自然语音合成算法作为支撑。

  虽然谷歌的操作已经十分风骚。但在中文领域想要复制英文的词汇运算以及助词生成却完全无法进行。百度这次展示的语音合成方案,据称是基于中文识别与语义理解技术,创新结合WaveNet加上拼接技术,打造出了满足中文需求,并适合大规模应用的自然语言合成算法。

  所以我们在听百度AI客服打电话的时候,会在机器音之外听到自然的语序,合理的语气词使用,甚至模仿出的呼吸声,迈过了AI与人类傻傻分不清楚的第一道门槛。

  当然了,只是说话好听是没用的,重点是能听懂,能聊下去。在理解层面,AI的挑战就更大了。

  直到今天,很多媒体和看客还在嘲笑AI聊天是“人工智障”。这种声音就像嘲笑最开始跑不过马车的汽车,当有一天大家发现在嘲笑的是什么,已经连汽车尾气都看不见了。

  为了能在聊天时不“智障”,无数巧妙到毫厘的技术解决方案正在加紧研发与应用。AI能够真正与人聊天,而不是单纯的一问一答,需要的是AI能够快速识别人类问题,并快速给出回复。这个过程不能卡顿和延迟——没有人想跟慢半拍的机器聊天。

  为了解决这个问题,各家高招跌出。比如第五代小冰采用了全双工语音技术,让预测模型和生成模型同步传输数据,达到预测聊天的效果。但可惜的是小冰似乎还没有脱离传统AI对话的窠臼,在流畅度以及“超纲”问题的应答上依旧不够灵敏。

  对比谷歌和百度的打电话技术,会发现更好的解决方案,可能是结合自然声音合成技术同步生成高效预测,让AI和真人具有一样的沟通语言习惯。但谷歌的方案一出,马上收到了一些怀。

相关文章