用语音输入取代打字,不是未来的趋势,而是正在发生的事实。不过想要做好中文语音输入法,难度是非常高的,当下中文语音输入有4大痛点。
第一,因为中文存在大量的同音字,不管你吐字多么清晰,总会有被误判的可能,所以极其考验算法的准确性;
第二,大多数语音输入法需要联网,才能正常运行,断网后识别准确率会大幅下降,不如直接打字更为可靠。
第三,平时说话偶尔需要夹杂英文,这时候输入法要同时识别中英文,容易出现误判。而且汉语的语种非常多,光是主要方言就高达15种,语音输入法很难实现面面俱到。
第四,中文语音输入法的准确率做到95%以上,就已经是顶级水准了,想要达到100%几乎不可能,最后还是需要略微修改一下,不可能完全脱离键盘。
一次很偶然的机会,让我开始尝试百度输入法的语音输入功能。毕竟百度是全球最大的中文搜索引擎,小度更是智能屏行业的领头羊。在中文搜索和AI人机交互这两大赛道,百度都是行业的领军者。
因此,百度输入法从一开始就被我寄予厚望。问题来了,最新版本的百度输入法,是否解决了语音输入的4大痛点?接下来分享一下我个人的体验。
我认为中文语音输入法最关键的就是同音字的纠正,以及标点符号的标注。我用了两台手机,分别用百度和苹果原生输入法,两个手机同时测试一段语音进行对比。毕竟没有对比,是得不出客观结论的。
百度输入法非常精准的判断了我的意思,标题符号也在最适合的地方,数字会自动替换成阿拉伯数字,基本不用再修改。
苹果原生输入法出现了3个瑕疵:缺了一个“逗号”,“而”这个字没有识别到,“80”没有转成阿拉伯数字,上下文格式不一致。简单对比后,可以明显感觉到百度语音输入的使用感受更流畅。
千万别觉得这点差距无所为。总共才60个字左右就有三个瑕疵。这意味着你用十几秒输入的文字,也需要十几秒去改,这显然不能提高码字效率。日常聊天用用还好,拿来工作肯定不行。
可能很多人都不知道,语音识别技术如果需要较强的性能,需要用到的计算量、模型体积是比较大的,所以一般会放到云服务器上。因此,许多输入法的语音功能都要求联网才能使用,断网识别则会降低准确率。
而百度输入法支持离线语音功能,APP里自带离线语音识别模组,就算没有联网也能正常使用,同时语音识别的准确率也非常高,和它形成明显的对比的是搜狗输入法。我用两台手机分别使用百度、搜狗,开启飞行模式,同时识别同一段语音,结果非常有趣。
客观地说,搜狗输入法在联网状态下,语音识别率和百度是同一梯队。不过在断网之后,搜狗输入法的语音识别准确率就会大幅下滑。而且不是标点符号的断句出现问题,也不是漏字,而是直接识别成了别的意思——比如把“拼音”识别为“小艺”,“键盘”识别为“健康”。
相比之下,百度输入法就很稳定,离线状态下的准确率,和联网状态几乎没有区别。成熟的“离线语音”可以带来多方面的好处,比如可以适应各种复杂的环境,就算断网了也能用。对我而言,“离线语音”让我可以放心地用语音输入,去做一些安全性要求较高的编辑工作。
中国地大物博,有多少地区,就有多少种方言。全国的普通话普及率才刚超过80%,还有很多人仍然在用方言交流。
为了让人与人之间的沟通再无障碍,百度推出了“方言自由说”功能,融合各种方言为一体,目前已经支持河南、四川、东北、山东、粤语、武汉、昆明等多种方言,使用时不需要切换语种。
好奇之下,我做了个小小的测试,选择“方言自由说”模式,先后测试河南话“俺要录个视频”、粤语“床前明月光,疑是地上霜”、四川话“这个火锅巴适得很”,百度输入法都能准确识别。
也就是说,百度输入法可以智能判断你说的话是否属于方言,并自动匹配最适合的模型,不需要自己动手去调。“方言自由说”功能,抹平了方言和普通话在发音、用词上的重大区别,让语音输入全面普及成为可能。
除了方言,百度输入法还可以实现“中英自由说”。简单测试了一下,它可以实现中英文同时识别,甚至可以“语码转换”,即当无法精确用中文描述某个概念时,就部分替换成英文来替代。
比如这段话:这个app的logo和slogan都超有feel的,你一定要感受一下。我尝试用中英文自由说来念这段文字,识别结果一字不差,算法非常精准。
要注意的是,“中英自由说”在离线状态下也是能使用的。之前我们提过,百度输入法在断网的时候,语音输入的准确率依然很高。我再次用这段话测试了一遍,结果是完全一致的,可用性非常高。
根据iiMedia Research的报告,百度输入法的AI语音功能识别准确率高达98.6%,是业界最高。不过我们也能看出,由于中文的同音字、谐音太多,市面上的语音输入法,都很难做到100%完美,还是有继续提升的空间。
但是我发现,新版百度输入法给出了解决办法,那就是用“语音指令”去修改语音结果。这样一来,哪怕是语音识别结果出现偏差,我们也能不用键盘修改,单纯只用语音来打字了。
官方给出了多种语音指令,包括修改、删除、加字等等。
比如“语音输入的极限速度是一分钟400字”这段话,如果语音指令来修改,能精确到什么程度呢?对此,我先是在聊天窗口里进行了测试。
比如改字,我说了指令“小度小度,把语音改成说话”,结果“语音”这两个字真的改成了“说话”;然后是删除,我说了指令“小度小度,删除说话”,然后“说话”这两个字被删除了。
除此之外,我发现不仅仅是在聊天时,在APP的搜索框中,也能启用语音指令功能。比如我在某APP的搜索栏中,输入“百度输入法体验”,然后再用语音指令进行修改,结果依然是可行的。
比如加字,我说了指令“小度小度,在体验前面加深度”,这句话就被改成了“百度输入法深度体验”。也就是说,百度输入法可以智能识别输入场景,在需要用到的场景下,会自动开启语音指令功能。
我测试了一下,百度输入法绝大多数情况下都能使用语音指令,比如发朋友圈、发动态、APP搜索框、评论区留言等等。只有极少数APP是无法识别的,比如在Edge浏览器的搜索框里就无法开启。
是时候该做个总结了,综合体验下来看,我觉得百度输入法的表现可以用四个字来形容:超乎预期。
首先,百度语音的识别准确率已经达到了高度可用的水平,标点符号的断句也十分准确;第二,百度在输入法里内置了完整的语音模型,就算离线也不受影响;第三,“中英自由说”和“方言自由说”这两大功能,让大多数人都能用上便捷的语音输入;第四,“语音指令”可以彻底解放双手,单纯用语音就能输出整段话,不需要用到键盘来修改。
百度输入法解决了语音输入的4大痛点,让“语音取代打字”正在成为现实。体验完之后,我开始明白为什么百度输入法是行业的领军者了——它的实力不是吹出来的,而是用实实在在的技术打出来的。
据艾媒咨询公布的《2021年度中国第三方手机输入法行业研究报告》,百度输入法市场占有率达到44.5%,月活用户达5.62亿,始终保持领先的地位。消费者的眼光是雪亮的,谁更好用大家心里都知道。
你用过百度输入法的语音功能吗?一起分享你的真实体验。
评论留言