走过漫长蛰伏期 语音技术成人机交互新热点

2013-03-01 13:27  来源:人民日报

  未来,会不会出现这样一幅语言自然交融的场景:人与机器间问答自如,不同语言的人们能够进行实时对话?现在语音技术正在逐步突破,带领人类前往这样的境地。

  1.语音技术全面走入普通人生活

  一些语音技术的应用在生活中已经触手可及,走在路上你会发现,对着手机“自言自语”的人多了。

  你可以进行语音搜索。比如,对着手机说:“我想听XXX的歌”,系统通过识别理解,很快就从手机上或者网上找到并播放歌曲给你听;或者只要轻轻哼唱一段音乐,手机就能搜索出相应的一首歌。

  你还可以用语音输入信息。比如发送手机短信甚至长篇的电子邮件,只需对着电子终端说话,语言就能变成文字输入。

  你也能与机器“对话交流”,它能跟你聊天、开玩笑,并满足搜寻信息等各种任务需求。

  在中国参加普通话、英语等语言考试时,很可能你面对的评委将是一台机器,它们能更客观而不知疲倦地为你“打分”。

  “语音最大的优势是,它是人类最自然的交互方式。”机器学习技术专家、百度多媒体部副总监余凯说,以语音搜索为例,基于自然语言的搜索请求将会成为移动互联时代的主流搜索方式之一。

  “如今的语音搜索不同于传统搜索模式,不是基于无关联的几个关键词来反馈结果,而是能够理解用户指令,完成一项完整的任务。”余凯说。

  在全世界范围内,语音技术走过了漫长的蛰伏期。但正是在近一两年,随着智能手机崛起,语音技术应用似乎迎来了爆发性增长。在中国已发展了20多年的语音技术,也真正进入到普通人的生活,开始了一个前所未有的快速发展阶段。不少中国本土的语音公司迅速崛起,改变了国外公司垄断中国语音技术市场的局面。

  科大讯飞信息科技股份有限公司目前占有中文语音技术市场70%以上的市场份额,包括了电信、金融等领域的大型电信级应用以及手机、车载导航、玩具等小型嵌入式应用。

  像这些以研发为主的语音技术公司,不仅自己研发语音技术产品,还凭借自身的技术优势,为各行各业的开发商提供易用的语音开发平台,为行业用户提供更加智能的语音技术解决方案。如科大讯飞目前已与联想、华为、东软、英特尔等公司合作,帮助他们在自己的系统和产品里进行语音技术的二次开发和推广。

  像百度等一些国内互联网公司近几年也越来越重视语音技术的应用,成立了自己的语音技术研发团队,针对自己的产品需求来发展技术,研发直接为产品服务。

  “国内正在形成持续的语音产业价值链,国内语音技术的市场应用正在大踏步前进。”科大讯飞董事长刘庆峰认为,目前中国在中英文语音产业方面的技术能力已完全和美国等世界一流同步。在产品应用中,只有在电信级大规模应用中,与美国、日本相比还略有差距。中国语音技术应用在消费类产品和终端产品方面的进展,反而超过了美国、韩国和日本。

  2.语音技术大爆发是技术与需求的双重作用

  从接受语音到识别语音,再到理解判断,最后反馈服务结果,在我们与机器的交流过程中,机器真的能像人一样思维吗?

  刘庆峰介绍说,普通人容易理解的,人机交互的过程中主要包括两类语音技术,一类是语音合成,就是让机器“说话”,产生人造语音。另一类是语音识别,就是让机器听懂人说话。

  “语音识别的目的,是让人说的话能被机器听清楚,之后还要听明白。语音合成,目的是要让机器能够用最自然、最清晰的方式说话。”微软亚洲研究院语音专家宋謌平说。

  机器要能够准确识别语音并像人一样通过理解判断做出回应,需要基于大量的“学习”,通过学习,与人一样根据过去的经验进行判断预测。这种“学习”有两种方法:通过在数据中找寻类似事例来提供解决方案,或是通过归纳出许多数据样本的共性来对这件事情做出判断。这也是语音技术发展的难点。

  余凯介绍,传统的语音识别中的语言模型是通过概率来“识别”,比如用户说“中”字,“国”字紧随其后的可能性很大,其他字出现概率相对就会小很多。利用不同的概率及数据建立的语言模型能够帮助机器识别语音。但是如果在口语化的环境下,用户语序不同或者有方言口音,就会大大干扰语音的解码识别过程,降低识别准确率。

  “语音技术是一门交叉学科,它的突飞猛进还得仰仗着数字信号处理、人工智能、大数据合成等各种领域技术的突破。” 刘庆峰说。

  余凯分析说,大数据和云计算为语音技术的发展立了大功,大大提高了机器对数据的处理能力,为机器学习提供了大量“素材”,并且提高了它的学习速度,“以前学术界做语音识别通常是几十小时,而互联网公司有大量的服务器集群并行计算,可以处理成千上万小时的训练语料。”

  目前,国际 上研究正热的机器深度学习网络的发展,可能将攻克“南腔北调”给语音技术带来的困境。机器的深度学习模仿人脑,分很多层对信息进行处理,逐级抽象。机器正获得更“深度”的学习能力,能将语音技术向前推进一大步。百度CEO李彦宏也透露,今年将建立百度历史上首个研究院,初期就将专注于深度学习技术。

  “语音技术可能在今年还会有爆发式的发展。”余凯预测。在他看来,经过了漫长蛰伏期的语音技术近几年迎来爆发式增长,除了技术发展的功劳,主要还是市场需求爆发的结果。

  “主要是移动互联网带来了爆发式需求,企业看到了巨大的市场愿意投入资金发展。”余凯说。在移动互联网时代,用户需要更为方便自然的人机交互方式。当互联网从个人电脑向移动终端迁移的过程中,意味着人们在走路、开车、吃饭时都可以通过互联网获取信息、完成任务,语音解放了双手,成为了最快捷方便的方式。

  以语音搜索为例,2002年初时,百度语音搜索占移动搜索的流量大概是1%,到2012年底升至8%,预计今年的流量大概能达到20%,“去年国庆元旦长假期间,语音流量增长得非常快,我们本来预期长假过后流量会有下降,事实证明没有,说明用户有长期使用的需求。”余凯说。

责任编辑: 豆豆
三项金融改革加快推进 或释放最大红利
随着利率市场化改革进一步推进、人民币汇率进入均衡区间、人民币资本项目可兑换改革的进一步深化,以及存款保险制度的建立和实施,中国经济正步入对外开放的转型期。
大公资讯 中国 军事 言论 图片 财经 产经 金融 汽车 娱乐 明星 生活 科技 书画 报纸 香港在线 国际 社会 教育 副刊 食品 会展 宏观 体育 健康 女人 人物 历史 专题