微软英库拼音输入法背后的技术和故事

2013-01-25 10:46  来源:创事记

微软英库拼音输入法开发团队自述,“我们为什么要开发一个新的中文输入法”

 微软英库拼音输入法开发团队自述,“我们为什么要开发一个新的中文输入法”

  作者:Matt Scott(马特·斯科特),英库拼音输法开发负责人及项目经理,微软亚洲研究院高级开发主管。

  翻译:刘未鹏,英库拼音输法客户端负责人,微软亚洲研究院研究软件开发工程师。

  微软英库拼音输入法开发团队自述,“我们为什么要开发一个新的中文输入法”。

本文作者Matt Scott(马特·斯科特),英库拼音输法开发负责人及项目经理,微软亚洲研究院高级开发主管。

  本文作者Matt Scott(马特·斯科特),英库拼音输法开发负责人及项目经理,微软亚洲研究院高级开发主管

  输入法的历史和今日

  中文输入法有一段漫长的历史,在个人计算机远远还未问世之前(至少从上世纪四十年代开始),发明家们就开始搞电子和机械中文输入法。而伴随着PC的问世和普及,我们也迎来了中文输入法技术革新的浪潮。中文输入法技术的最终目标是输入效率,各家竞争的焦点集中在性能、准确率和易用性方面。“输入法”(Input Method Editor,或IME)这个术语是Windows 95首次使用的,Windows 95还附带了微软拼音输入法第一版(基于拼音的输入也是如今中文输入法最主流的形式)。自Windows 95以来,这18年里,输入法界可谓风起云涌,无论是在技术、还是竞争方面。

  如今的输入法市场竞争非常激烈,本土和国际软件公司都参与了角逐,这其中尤数提供在线服务的公司。他们参与的理由很简单:对于绝大多数中国用户来说,输入法是一个“入口”。在过去的十年中,随着网络和云计算的兴起,基于云的输入法更是给众多公司打开了在线服务业务方面的机会。人人都希望在这个6亿中国互联网用户的入口之争上能够分一杯羹,这其中的巨大商机是不言而喻的。

  问题、趋势和机会

  人们可能会疑惑:既然微软已经有了一款输入法产品(微软拼音输入法),为什么微软亚洲研究院还要做这款叫做“英库拼音输入法”的新输入法呢?更何况是在输入法市场貌似”天下已分、大局已定”的情况下。

  答案其实也很简单,那就是我们认为中文输入法的症结实际远未解决。随着互联网时代的崛起,我们已经越来越多地发现,中文用户在网络时代使用语言交流的习惯和趋势在悄然发生重大的变化,而这也催生了一些传统的中文输入法无法满足的使用需求。此外,再加上自然语言处理领域的研究突破,我们相信迎来下一代中文输入法核心技术的时候终于到了。

  先说网络时代产生的新的用户需求。例如我们注意到,中文用户使用英语的频率逐年增高,中英混杂的使用也在迅速增多。如今,大约有3.25亿中国人在学习英语。到2025年,会说英语的中国人预计将超过全世界其他地方的英语母语使用者人数的总和。

  然而,虽然有如此多的人在学习和使用英语,我们却发现中文输入法软件里面能够提供有效和友好的英文输入辅助功能的少之又少。我们认为,对于中国用户来说,利用输入法来辅助英文输入是最佳方案,因为我们已然对输入法这个东西很熟悉,而且经由输入法,我们可以在背后利用上很多相关的技术。

  另一方面,英文世界的语言也在急速发生变化,有语言跟踪系统估计大约每98分钟就有一个英文新词被创造出来。这些词大多根本就没有常见的中文对应翻译。而在一些专业领域这一现象显得尤其明显,举个例子,软件技术书籍。你随便拿起一本软件技术书籍都可以看到一摞英文术语。如今英语已经是中国人日常用语的一部分,在很多领域,甚至是必不可少的。既然如此,难道我们的中文输入法不应该跟上中英混合的趋势,提供更好、更流畅、新鲜和准确的中英混合输入体验吗?

  除此之外,促使我们做英库拼音输入法的还有一个很重要的原因。如今我们在线沟通的时候,我们会发现,沟通的内容早已经超越了简单的文本,进而包含图片、视频、音乐、地图等等“富媒体”内容。上百万的网络用户每天在交流、发微博、写博客,甚至在文档中使用这些非文本类内容。而值得注意的是,这些内容往往是经由搜索而来。

  那么,既然如此,为什么当我们需要粘贴发送它们的时候,总得离开当前输入的上下文,跑过去打开一个浏览器,输入网址,输入搜索关键字,完了之后再把搜索的结果(图片、地图等等)拷贝粘贴回来呢?这一通来去完全影响了输入的流畅体验,打断了我们宝贵的注意力。为什么我们不能直接在输入法里面完成这整个的流程呢?

  这种无需离开上下文的流畅体验正是高效输入的灵魂。现在我们已经知道,主流的输入法都有所谓的“云候选词”,也就是说每个输入框都相当于是搜索框,既然如此,为什么不把搜索的内容从纯文本拓展到其他形式的富媒体内容呢?想象一下,一旦这个成为现实,整个互联网上可搜索的内容都将在你的指尖上。

  除了上面提到的这些因素之外,我们还相信,输入法的核心技术本身也将迎来一个新的纪元:更精准、数据更相关、而且更快。就我们而言,我们对两个核心技术领域很感兴趣:一是通过新的算法来驱动输入法的核心引擎,另一个就是通过新的网络挖掘技术来提升数据的新鲜度和质量。借助微软亚洲研究院顶尖的自然语言处理研究成果,我们相信我们的输入法有着得天独厚的竞争优势。

责任编辑: 豆豆
三项金融改革加快推进 或释放最大红利
随着利率市场化改革进一步推进、人民币汇率进入均衡区间、人民币资本项目可兑换改革的进一步深化,以及存款保险制度的建立和实施,中国经济正步入对外开放的转型期。
大公资讯 中国 军事 言论 图片 财经 产经 金融 汽车 娱乐 明星 生活 科技 书画 报纸 香港在线 国际 社会 教育 副刊 食品 会展 宏观 体育 健康 女人 人物 历史 专题