当前位置: 首页 > YYVIP易游技术文档
更新时间:2026-02-02
点击次数:
从2010年,讯飞推出业界首个中文语音输入法,将语音输入带到大众面前直到今天,语音输入早就不再是当初功能机时代“语音王”的土味儿模样。如今,语音输入已经逐渐超过手写,成为在手机端一种不可或缺的日常输入方式。
中英文混杂语音输入识别不佳、在安静场所难以使用、噪声环境的输入效果容易受到影响、同音字词的识别效果不佳。
这样一来,随着输入量的增加,很多语音输入工具的表现常常令人抓狂,促使越来越多的人在QQ/微信你来我往一段又一段令人崩溃的60秒长语音。
日前,讯飞输入法的Android版和iOS版均更新了AI语音引擎,进一步优化通用语音识别效果,同时还基于说话人和使用场景,重点提升语音候选词、噪声环境、轻声说话及专有名词的识别准确率,使讯飞输入法通用语音识别准确率在98%的基础上进一步提升。
此前,讯飞输入法大数据显示,约80%的方言母语者同时使用普通话,在私密场合或者面对方言交流对象时,习惯使用方言,表达更亲切;在正式的社交或工作场合,使用普通话避免沟通障碍。
我们使用TED演讲音频,录入一段相当长的英文语料,被讯飞输入法准确识别并加以合适的排版、断句。
一般来说,输入法的语音识别只能同时识别一种语言。如果在普通话当中突然插入一个“hello、byebye”之外的并不太常见的英文单词,很多输入法可能就反应不过来,直接识别失败了。也就是难以处理中英混输,尽管或许能识别出了夹杂在中文里的英语词汇,但却会在整句语义判断上产生干扰,最后导致句子不通顺。
然而语言混用的现象我们又很难绕开,比如“DNA序列测定”、“开启MTP”、“AMOLED材质的屏幕和IPS的材质屏幕哪个更好”,如果用中行表达,变成了“脱氧核糖核酸序列测定”、“开启多媒体文件传输协议”、“有源矩阵有机发光二极体显示屏和平面转换液晶面板显示屏幕哪个更好”,会让人感觉十分别扭和陌生。
在默认中文“普通话(随心说)”识别模式下,我们尝试使用完整中文+完整英文音频,看看讯飞输入法的识别效果如何。
受限于时代以及教育、地域的原因,尤其像爸妈那一代并不擅长用手机打字,普通话语音输入又常常带着一些浓重的口音,面临识别不准确的问题,怎样才能满足他们的语音输入需求呢?
这里我们实测了一下,在默认中文“普通话(随心说)”识别模式下,我们使用上面那段“塑料普通话”,讯飞输入法准确打出“小朋友要有小朋友的样子,要你管,与你无关”,让对方看得明明白白。
语音输入提高了我们手机端的打字效率,但实际使用中会发现,当语速快到“飞起”的时候,发音的连读现象可能导致识别结果不准,特别是嘟嘟囔囔的发音很容易出现偏差,以及前后鼻音不清晰,同音不同义。
这是讯飞输入法首创的语音功能,即语音输入中实现智能纠错,提供中英字词候选,不仅是语音识别也是对语义的理解。主要解决用户发音不标准、同音异字的问题,能够节省用户修改和重新输入的时间。
举个例子,原始识别结果为“英译”,而实际可能说的是中文“音译”,由此将可能的候选结果都展示出来,点击标蓝的“英译”就可以方便用户选择识别结果。还有很多类似的情况不胜枚举:
通过前面的测试,我们看到无论是对普通话、带口音普通话还是语音候选词识别效果的优化,都可以让让使用语音输入的频率越来越高,说话秒变文字,缩短交流的时间成本。
新版本的讯飞语音输入法提升了耳语输入的识别效果。顾名思义,耳语输入就是像用“耳语”般使用低分贝音量进行语音输入,即便声音很小也不会影响手机的语音识别准确率。
值得一提的是,新版语音输入自适应大声和耳语,在默认中文“普通话(随心说)”识别模式下,点击麦克风对着手机耳语说话,文字立即呈现在屏幕上,如此也不会打扰到周围人,还能继续畅快地使用语音输入。如果你常常因大声说话而尴尬,不妨来试一试讯飞输入法的耳语输入。
相信你此前一定遇到过这样的情况:街头嘈杂环境使用语音输入,偶尔会出现“反应迟钝”的现象。这是因为很多语音技术严重受限于应用场景,环境噪音的干扰导致了语音识别效果。在不改变录音设备终端的情况下,只有在软件层面进行优化才能有所改善。
分领域噪音补偿可以基于环境嗅探的知识分辨出各种不同领域,自动采用不同的算法去除带噪语音中的噪音,从而达到提高信噪比的效果;而混合训练技术则可以弥补去噪后语音所产生的同真实安静语音的语谱差异。
对于很多英文不太好人而言,和不会中文的外国人交流是一件比较困难的事情:先用中文拟好常用语,翻查外文字典编写成句;或者将中文复制到翻译APP中翻译,也有部分用户在网页上翻译,这再来观察翻译结果是不是真的贴切准确,比较浪费时间。
以Android版快捷翻译韩语的操作为例。任意输入界面打开讯飞输入法,点击讯飞键在菜单面板找到“快捷翻译”,点击开启翻译工具栏,通过最左侧按钮查看选择翻译语种。在中韩状态下,输入中文上屏韩语;在韩中状态下,输入韩语上屏中文,免去来回切换翻译APP的繁琐操作,输入文字同时翻译出结果。
俗话说,“十里不同音”,中国地大物博,南北差异很大,不同的方言极具特色。
在没有网络、流量不足、网络不佳等情况下,手机本地编解码的离线语音输入便派上用场。为提升离线语音输入的实用性,早在上一个版本,也就是讯飞输入法9.0时,其离线%,接近在线语音输入的效果。
在体验过程当中我们发现,讯飞输入法安离线语音输入不仅在无网络或网络不佳时正常使用语音输入,提升准确率的同时实现边说话边上屏的效果。开启离线语音以后,在“情景模式”中选择“网络不佳时自动开启”,尤为适合处于地铁、电梯、穿越隧道或者人流密集等网络不稳定的场景。
最后我们来放一个小彩蛋——彻底消灭键盘,也可以实现语音转文字的调整修改,“莫得键盘”是语音/文字输入的最理想状态。在讯飞输入法的键盘模式菜单里选择“莫得键盘”,键盘形态完全消了,取而代之的是一个机器人头像,它叫“飞飞助手”。
举例来说,当需要编辑文字时,你可以直接说把“上楼”改成“下楼”;修改标点可以说把“逗号”改成“问号”;清空内容可以说“删除全部”;搜索表情可以说“搜索表情”;切换输入模式可以说“打开繁体输入”等等;甚至在完成文字输入之后,还可以动动嘴说“发送”即可发出信息。