专访科大讯飞吴晓如:语音与移动互联网共舞

2010-10-29 08:39:00   作者:   来源:CTI论坛   评论:0  点击:

  10月28号的北京,秋日的阳光分外灿烂,将西山的轮廓勾勒得格外清晰。位于西三环边的香格里拉饭店,人声鼎沸,科大讯飞“语音云”发布会选择这里举行。   此次发布会与高速发展的移动互联网背景密不可分,移动互联网产业规模达到桌面互联网十倍以上速度递增。而在互联网时代,社会变得越来越小,语音技术使开车走路等移动状况下使用互联网成为可能。数据表明,目前中国的8亿手机用户中,已经有将近2亿的移动互联网用户,到2012年,中国3G用户也将超过2亿以上,如此巨大规模的用户群,为中国移动互联网的发展提供了源源不断的动力和持续成长的舞台。   在这个大的发展趋势中,对语音技术的投入力度和市场关注度前所未有,如IBM,微软、苹果以及Google都有对语音的规划,IBM提出要把他的语音技术推向市场,微软在多种场合下提出来,他未来看好的三大产业第一就是语音技术,并且微软即将推出来的Window7,也已经把语音作为非常重要的一部分,而苹果也正在研发语音识别技术等等。应该说国际IT巨头在中文语音领域,在全球范围内对语音产业的高度关注,既促进了这个产业快速的发展,也为我们中国语音企业提出了更大的挑战。   同时,“云计算”一出世,就引起了行业人士的关注,而语音技术与呼叫中心的结合运用,更是大家期待的。科大讯飞此次推出“语音云”,是概念的重新整合还是标志着一项新技术的诞生?如果是一项新的技术,除了呼叫中心的应用之外,是否还能在别的领域带给大家惊喜?这个新领域应用是否已有一些成果?   为此,利用“语音云”发布会正式开始前的间隙,CTI论坛记者专访了科大讯飞高级副总裁吴晓如博士。 \ 上图为:科大讯飞高级副总裁吴晓如博士   1、CTI论坛记者:请您谈谈科大讯飞此次推出的“语音云”是一个新概念还是一项新技术?   吴晓如:“讯飞语音云”,实际上是基于云计算技术作为基础,将业界领先的智能语音技术向广大移动互联网开发者开放,为各类合作伙伴提供低门槛的语音合成、语音识别以及语音听写等智能语音交互式服务。   而合作伙伴方面,可以像使用水、电那样“即开即有、按需取用”,非常方便。以前的合作开发,可能需要半年甚至几年的时间,才能开发一个应用,而现在,可以做到一、两个月,甚至几天就可以开发一个新应用。也就是方便了合作伙伴,能在极短的时间内构建一个支持自然语音交互功能的特色移动互联网应用。   另外,“讯飞语音云”的推出,还有一个重要的突破,就是将打破相关语音服务在本地调用时,受本地资源条件限制,可实现的应用少、应用效果不尽人意的瓶颈,从而能有效培育和进一步催生用户需求,形成应用、市场、用户各方面的良性互动与促进作用,推动语音市场的发展。   2、CTI论坛记者: 面向呼叫中心的中文语音合成技术近年来的发展水平?   吴晓如:应该说这十年的语音技术发展是相当快的,如果将中国一个最出色播音员的普通话作为满分5分的话,在2000年以前,我们还达不到3分, 2005年前后,我们能达到3.8分,而现在,我可以自豪地说,我们能达到4.5分了。4.5分是个什么概念,打个比方,比如咱俩的普通话标准可能只能达到4分左右。而我们的语音已经能达到4.5分,比咱俩水平高。   3、CTI论坛记者:如您上面所说,科大讯飞的语音合成技术早已公认为处于业界领先水平,但在语音识别方面有哪些竞争优势呢?   吴晓如:科大讯飞有三个方面的优势,可以说是全世界都比不了的。   第一个优势是我们有庞大的语音库,这个语音库的容量已经达到百万级。科大讯飞与国家教育部合作,是全国普通话测试协助商,大家都知道:全国每年都会有国家公务员、教师等职位必须进行普通话考试,考试的所有语音数据我们都会存贮,可以说,我们有全中国每个省、每个市、甚至每个县、每个镇的基础语音数据库。   第二个优势是科大讯飞的技术是产学研一体化的,我们与清华大学、中国科技大学、新疆大学等语音研究室进行合作,可以说语音研发的先进技术能够很好的得到应用体现。   第三,我们采用了云计算平台,上面说的百万数据如何为我所用?我们对数据反复进行研究,建立复杂的数学模型,这些都要求工程运算能力极强。   4、CTI论坛记者: 语音识别在呼叫中心的应用价值体现?而目前在国内还未大规模应用,主要是什么原因?   吴晓如:我觉得语音识别在呼叫中心的应用价值体现是显而易见的,但最大体现在以下两点:
一是我们可以进行自助语音服务,这部分的服务现在已经在银行、保险及凯发体育商的凯发体育投注中心得到了良好的体验;
  二是语音是一种非结构化的信息源,现在对语音的检索还没有用起来,大段大段的语音,其实有很多是很有价值的资源,因为不象文字那么容易检索,因而这部分的资源都没有得到合理的应用。挖出有价值的语音信息,这是语音的另一个应用价值体现。   但目前在国内,语音技术还没有大规模应用起来,主要原因是客户的需求不是太迫切,另外,呼叫中心一般是成本中心,而且,呼叫中心对技术的成熟度要求很高,客户可以用不是太方便的,但一定要用不能出问题的。前几年的语音技术还达到这个标准。现在的技术已经能解决这个问题。   5、CTI论坛记者:讯飞语音识别的核心技术是什么?   吴晓如:讯飞语音识别的核心主要有三大技术:   一是区分性训练技术:上面提到过,我们有上百万的基础语音数据库,这么庞大的语音数据需要进行区分;   二是超大规模的解码技术:经过对声音区分性训练后,建立复杂的数据模型,需要有超大规模的解码技术;   三是有语音自适应技术:当某些语音识别不了,进行多次重复识别,识别率会更高。   6、CTI论坛记者:科大讯飞未来的战略的是什么?   吴晓如:语音技术和产业一直是世界各国竞相竞争的热点和焦点,而科大讯飞作为一家民族语音企业,我们具有非常好的机遇及发展壮大中国语音产业的责任。   “语音是文化的基础,民族的象征”,智能语音技术不仅拥有广阔的应用空间,还在国防军事、汉语国际推广、教育等国家重大战略需求领域有着重大应用价值。而移动互联网迈入语音时代、云计算时代,我们将语音与移动互联网结合,相信会对我国移动互联网语音应用及信息安全产生推动作用。   另外,科大讯飞不仅局限于中文领域,而且在英文技术领域方面也予以开拓。   CTI论坛记者:预祝此次科大讯飞“语音云”发布会圆满成功!   吴晓如博士简介:安徽科大讯飞信息科技股份有限公司高级副总裁,负责讯飞语音技术在电话和网络上的业务。研究兴趣为语音合成和语音识别等智能语音技术。曾参加了多个国家重点科研项目。2003、2004年度主持开发了代表当年中文语音最高水平的中文语音合成系统,2006年主持开发的英文语音合成系统获得国际英文语音合成大赛第一名。此外,吴晓如长期致力于推动语音技术的应用深化,目前语音应用已覆盖了电信、金融、电力等社会信息服务的各领域,鉴于在智能语音技术及其成果应用推广方面所作的工作,吴晓如于2002年度获国家科技进步奖,2006年获得信息产业重大技术发明奖,2007年获信息产业部先进个人;   声明:CTI论坛(CTiforum)版权作品,未经CTiforum书面授权,严禁转载,违者将被追究法律责任。  
分享到: 收藏

专题