语音识别的移动互联网应用| Mobile 2.0
主页 » Win Phone,深度行业事件评论 » 语音识别的移动互联网应用

语音识别的移动互联网应用

作者: | 发表于2010-08-17 | 9人发言

      语音识别技术发展到现在已经达到应用水平,这项技术的推广普及必在移动互联网行业。也许有一天我们可以通过蓝牙耳机直接呼出我们的问题,在通过蓝牙耳机听到我们想得到的答案,而这除了浪费点流量一切都是免费的。

      我最早接触的语音识别软件是台湾的赛微轻松说,这家公司的语音识别技术在当时已经达到应用的水平。软件本身不错,但是有两个问题:一是对不常用的词语的识别率不高,识别速度一般,占用相对多的内存;二是市场需求不强烈,因为技术不是非常成熟和市场处于培育期,多数用户只是打着试试的想法试用软件。

图片1          图片2

      赛微的语音识别技术只是应用于手机本身并不应用于网络搜索,让我们意料之外的是,最早将语音识别技术应用于移动搜索的是歌曲的移动搜索。在这类移动应用中佼佼者要数:midomi和shazam,这两个软件都支持多个手机平台,感兴趣的用户可以下载,注意的是shazam是免费的。

       这类应用的功能和百度即将推出的哼唱搜索是一个概念,用户只需打开软件通过话筒哼唱歌曲或接受播放的音乐,软件根据采集的数据来识别相应的歌曲。原理是采集音频数据,上传数据,核对数据库里类似的音频数据,发送结果到设备。这种技术已经达到非常成熟的水平,识别率达到90%以上甚至更高(这里的识别率只针对标准的唱片音频,每个人的水平参差不齐识别率的标准不好确定)。而且通过这类手机软件产生的流量也很少,一般维持在15k~30k。下面给大家发一段国外的对于midomi和shazam这两款软件的视频评测,这段视频大家会喜欢的(指的不是里面的广告,而是评测内容)。

 

      赛微的语音识别技术止步于单纯的手机应用,midomi和shazam等移动终端应用也止步于音乐的在线搜索,而搜索引擎厂商如Google、Bing、还有后面跟进的百度都在大力推进语音识别搜索的网络化。微软的Bing移动版和Google的Google地图等率先实现语音识别技术应用于移动搜索领域,而百度在语音移动搜索这个领域看来也想分一杯羹。

       从已经发布的微软和Google语音搜索应用中我们可以发现,语音搜索离我们的生活还是有一段距离。最大的阻碍还是语音识别率不高,尤其是生词的识别率超低,生词基本不能识别,识别时间较长,占用的内存和CPU较多等。就拿Bing移动版来说,目前只支持英文语音搜索,而像Washington、blog、twitter等这类超常用的词汇识别率很高,识别用时也很短,而比较生僻的词汇用时较长,识别率也很低。我们平时用手机键盘或虚拟键盘只要2~3秒可以完成的输入,在语音搜索这里可能需要多达1分钟才能输入,而且还不一定准确。这就是我们现在语音搜索还不普及的原因,用户要的是效率而不是新颖的噱头。

图片3

      个人还是相对看好百度的歌曲哼唱搜索,原因是这方面的语音识别中的音乐搜索技术相对要成熟些,但鉴于每个人哼唱的水平不一,识别率自然天差地别。今年以来,百度开始加强语音识别的投入力度。尤其上个月连续发出启事,招募语音识别的技术带头人、高级工程师和工程师等岗位。并提出能敏锐把握语音识别技术方向,主导开发过应用级别的语音识别系统,四年以上语音方向的研究经验等要求。

      从国内来看,除百度外,盛大也对语音识别技术情有独钟。盛大网络创新院早在去年便静悄悄地组建了中国最强悍的语音识别团队,而且盛大决定对外开放哼唱搜索技术相关源代码,以帮助国内这个领域的研究人员得到分享和帮助。 

      音乐搜索只是语音搜索的冰山一角,移动语音搜索才是语音搜索的重头戏。而现在语音搜索技术正在逐渐成熟,语音搜索正在摆脱噱头的头衔走向普及应用。请大家放心,短时间内语音搜索只能是噱头,无聊地时候当噱头在众人前面摆弄下还是游刃有余的。 若干年后,我们的生活可以被“语音”得很科幻。

[poll id="64"]


现有9条评论

  1. 匿名 说到:

    发布之前进行一下拼写检查,很简单,却对提升自己的品质大有裨益。如:“占用先相对多的内存”,这样的例子每篇文章几乎都有。

    回复

    haizon Reply:

    谢谢指正,为了提高站上文章的品质,我们会在发布前认真校对。

    回复

  2. Laurence 说到:

    移动应用时,语音识别效果受环境噪音影响很大,离实用的距离还很远

    回复

  3. Crazy1in.tk 说到:

    支持啦,,很喜欢博主的博客呀。crazy1in.tk留下脚印。。

    回复

  4. Yen 说到:

    midomi那么的快速…

    回复

  5. LaRiver 说到:

    个人认为语音识别的方式只是一种新技术的转折和过度,最终仍是人机从最底层神经系统的融合,不过,过程是灰常灰常漫长滴。

    从现阶段来讲,语音识别即使技术很成熟之后,也同样面临着用户最终使用环境、输入使用习惯等多方面因素的制约。至少,我不会在公交车上拿着手机语音输入要发送给女朋友的短信:)。

    回复

    eldxin7 Reply:

    说得神乎其神的。拉拉。
    人机合一

    回复

  6. eldxin7 说到:

    现在这技术貌似只是初级水平,识别还不能很准确。毕竟语音这东西不同人说出来的同一句话也是有很多差别的

    回复

我的看法

 

以下所有信息都可选填