你试过15分钟写3000字吗?
除了知识储备和灵感,码字速度也是一个作者的重要技能。作为一名作者,剑飞最常用的码字神器就是讯飞输入法的语音输入功能,他也曾尝试用讯飞输入法一天改15万字。
虽然输入法是人们使用手机、电脑等智能设备必不可少的工具,但通常被问及最常使用哪个App时,很少有人会想到。
但随着越来越多的AI技术应用到输入法中,输入法也逐渐从工具产品发展为服务产品,变得更加亲民,比如讯飞输入法中的中英文混合输入功能、AI助手提供的AI校对、AI涂鸦等。,为用户提供更加个性化、场景化的服务。
今年是讯飞输入法推出的第11个年头,每年都会有一个大版本的讯飞输入法升级。今年11月3日,全新升级的输入法——讯飞输入法V11.0发布。第11代讯飞输入法有五大亮点变化:AI语音升级、AI助手升级、AI键盘输入升级、AI表情升级、输入法App UI、App内社区改版。
全新升级的讯飞输入法能给用户带来哪些不一样的输入体验,在这些升级的背后,讯飞输入法融入了哪些独特的AI能力?
为此,智信-东西对话科大讯飞输入法事业部总经理成昆解构了IFFT输入法的五大新亮点,进一步解决了IFFT在AI赋能输入法上的逻辑和思考。
一、语音输入进化,应对中英文夹杂、嘈杂街头考验近年来,随着语音识别等相关技术的发展,越来越多的用户开始使用和习惯语音输入的方式。但是,相比拼音输入和手写输入,语音输入有很大的局限性。最大的一个局限就是容易受到周围环境的影响,比如高噪音,很多人说话的嘈杂场合。如何保证更好的识别效果,是需要突破的技术难点。
成昆表示,自讯飞启动深度学习语音识别研究以来,一直在优化迭代其语音识别模型框架,从DNN到RNN到DFCNN再到编解码,不断提升语音识别的效果,从而保证了讯飞输入法语音输入等讯飞语音相关产品的功能持续优化。
受人耳听觉选择性注意能力的启发,讯飞提出了复杂场景下前端集成语音识别框架TFMA(Temporary Feedback End-End Multi-Channel ASR)框架,重构原始语音识别过程。
传统语音识别系统
在传统的语音识别中,首先通过声学模型对声音进行过滤,得到特征信号,然后通过第一识别引擎将这些特征转化为发音信息等音素,再结合语言模型将语音转化为单词。
在这个语音转文字的过程中,如果背景声音中同时有很多人在说话,传统的语音识别系统是没有办法过滤掉这么多声音的,进一步影响了输入法语音识别的准确性。
目前讯飞已经做了一些创新,高效利用多路语音输入。例如,最新发布的TFMA语音识别框架可以解决复杂场景下的语音识别问题。该方案的技术创新在于前后端的联合建模和优化,形成了一套自下而上和自上而下相结合的流程,并引入了大量的专家知识,结合了神经网络和传统信号处理的优势,保证了系统的鲁棒性。
TFMA语音识别框架
通过使用TFMA语音识别框架,包括讯飞输入法在内的讯飞软硬件产品都受益匪浅。这些产品在高噪声、多人通话、轻声说话等复杂场景下的语音识别能力再次得到提升,尤其是在-10 dB到-15 dB等恶劣场景下,从不可用变成了可用甚至易用。
成昆表示,除了复杂场景下识别率的提升,第11代讯飞输入法还有一个发音方面的提升,因为有了更多可识别的语言。讯飞输入法的这个最新版本现在支持12种外语的语音输入和语音翻译,包括阿拉伯语、俄语、意大利语和英语。
成昆补充道,多语种和以往方言语音输入法的实现,依赖于讯飞的统一建模技术,将各种语言和方言的语料库统一放入一个模型中进行训练。在训练过程中,各种语料库不进行拆解,训练结束后直接输出,这样即使用户普通话不那么标准,讯飞输入法也能保证很好的识别效果。
讯飞输入法有语音翻译功能,比如中文口语输入法自动转换成德语文本输入。
在交流中,成昆表示,从输入法发展的整个过程来看,输入法可以分为两个阶段。第一阶段是追求效率,可以定义为“1.0版”。在这个阶段,输入法厂商解决的是如何让文字输入快速准确的问题。
因为疫情,很多工作和交流都上线了。事实上,输入法的语音转文字输入功能,尤其是多语言输入功能,很好地满足了人们在线交流中快速准确的转录输入需求。
二、让输入法怎样更懂人:既是百宝箱也是情感写手成昆补充说,随着互联网的发展和智能设备用户日益增长的个性化需求,输入法也发生了变化。解决这种个性化需求的输入法可以定义为“2.0版本”,对应三类需求。
第一类需求是用户的个性化输入需求。讯飞推出AI助手功能,承载了这一需求。比如有些人喜欢用图片来表达一些内容,讯飞输入法就有直接把文字转换成图片的功能。
科大讯飞输入法AI doo-doo功能,输入文字自动推荐图片。
第二种个性化需求是很多人的投入是为了解决某一类问题。讯飞还根据用户需求在输入法内置了搜索,缩短了用户需求的实现路径。
成昆表示,这一功能的实现实际上是依靠讯飞最新的本地化意图识别引擎来分析用户的意图,进而为用户提供有针对性的服务。
讯飞输入法内置搜索功能
第三类是情感需求。讯飞希望输入法的AI助手像真正的助手一样,能够主动为用户提供一些推荐和服务,比如在社区论坛发帖时向用户推荐文案,聊天时为用户提供更丰富的表情,帮助校对错别字,在用户一键想赞的时候帮忙写。
在这个过程中,会用到一些自然语言处理(NLP)技术,直接局部分析分词,感知用户想要表达的内容。此外,本地化的NLP技术对用户来说会更好、更安全。
科大讯飞输入法AI发帖助手、AI聊天助手和AI赞助手功能。
成昆还在AI助手中分享了科大讯飞输入法未来的一些目标。他表示,科大讯飞输入法目前的版本可以定义为从追求效率的“1.0版本”向追求情感感知的“2.0版本”过渡,因此场景覆盖没有那么完整。科大讯飞首先选取用户使用频率较高的一些场景,比如社交、论坛、电商等。,未来会逐步拓展,比如直播场景,用户写作场景。
而且未来讯飞输入法想提供的不仅仅是输入工具的功能,还有后续的服务环节。比如目前可以直接在讯飞输入法界面搜索,不需要跳出输入界面。以后买东西可能会输入商品名称,输入法会串联一个比价功能。
“其实讯飞输入法就是这样一款在整个讯飞产品中运用人工智能技术的产品。”成昆表示,除了语音技术和AI助手,讯飞输入法的图像识别功能和随机手写输入功能也被集成到讯飞自研的多项AI技术中,可以识别手写和打印表格,还可以进行批改学生作业等多种功能。
讯飞输入法的图像识别功能
三、输入法的未来在元宇宙里?除了提升输入法的AI能力,讯飞还对输入法的界面进行了改版,第11代讯飞输入法的键盘整体变得更加圆润。
成昆提到,讯飞根据用户本身的特点,对一些页面做了一些定向优化。
科大讯飞输入法App页面和键盘页面
输入法是人机交互的重要工具。除了常用的手机和电脑,汽车、可穿戴设备等都需要输入法来完成操作。
比如汽车内置了输入法,用户对这种输入法的需求和使用手机时是不一样的。使用汽车输入法的目的更多的是搜索,搜索地名导航,搜索歌曲刷新等等;对于智能手表来说,对输入法的需求也不同于其他设备。讯飞的语音输入功能对于屏幕更小的智能手表等智能设备会有更好的输入体验。
智能手表输入接口
在谈到输入法的交互能力时,成昆也分享了对输入法未来发展的一些看法。输入法的文字输入功能可能只是其功能的一部分,未来输入法可能更像是一个助手的存在。
像最近业界热议的元宇宙,用户如何与虚拟世界进行交互,可能不仅仅是键盘或者文字输入的形式,还可能是现实中人与人之间的语音对话形式。
除了语音交互,在超宇宙的虚拟世界中,人们还将需要使用图像进行交互,识别交互的另一面;再有就是讯飞正在布局的虚拟形象,通过一个虚拟形象来代表用户自己在虚拟世界中的身份,然后结合语音技术和图像技术,实现更好的交互。
科大讯飞推出虚拟人互动平台
结语:AI时代输入法从快和准到个性化随着输入法准确度和快速输入能力的提高,用户对输入的需求也越来越大。讯飞考虑到各类用户在不同场景下的需求,给出针对性的输入解决方案,包括语音输入、图片输入、AI校对、AI助手等。
谈到讯飞输入法,成昆表示,讯飞输入法的大部分用户都是主动从手机应用市场下载安装讯飞输入法,因为讯飞充分考虑了用户的个性化需求。
如何利用AI更精准地匹配用户的个性化需求,可能是未来输入法领域的重要竞争点。