计算机视觉(CV)是AI领域一大吸金赛道,也由此产生了商汤、云从、依图、旷视这样的“图像四小龙”。而这四小龙之一的「依图科技」却率先拓宽边界,踏入语音和自然语言处理(NLP)行业。
12月11日,依图发布了依图短语音听写API、和微软Azure推出依图语音开放平台,并和华为发布了“智能语音联合解决方案”。
其实早在2016年,当计算机视觉公司刚开始吸引投资人注意时,语音识别就开始规模化场景落地。现如今,百度、腾讯、京东、小米纷纷发布智能音箱,各种手机搭载语音交互,智能翻译工具、智能客服等语音类产品层出不穷。
那么,相比同类产品,依图语音技术的比较优势和市场空间会在哪里?在未来产品化落地上,依图会有怎样的规划? 围绕这些问题,36氪独家专访了依图科技首席创新官,前Google Research Scientist吕昊博士。
依图科技首席创新官吕昊博士
确实,这个时间点进入语音行业挑战重重,一则先发优势不再,二则市场拥挤,科大讯飞、BAT大厂纷纷入局,从技术上升到平台生态,市场空间看似余地不多。
对此,吕昊表示:依图团队对国内现有的语音识别技术都做了调研,发现 在不少场景下,语音识别效果并不理想,例如通话过程中的声音转写准确率低、远距离的声音采集识别效果差、语料数据积累不足等。因此,依图会从这些可优化空间入手,对模型算法进行打磨,提升识别率,降低字错率。
在语音识别领域,15%的字错率是一条红线,超过则基本不具备可读性,而低于3%则是可以被认为具备类人的语音识别能力。 然而,在实际说话过程中,人的语速、语气、口音、语态等都会影响识别准确度。此外,不同于英文,中文复杂的语言元素,以及同音不同意等问题为语音识别带来了更大的挑战。那么依图如何应对呢?
吕昊告诉36氪:当前业内缺乏系统性的标准测试和测试集,对于语音识别缺乏体验和比较的工具,为提升识别准确率,依图团队 搜集了大量真实对话数据,以及专业类、生活类的细分语料库,基于此,依图提出了自己多维度、多场景的测试数据集,由此来对模型算法进行训练和测试。
据悉, 在基于全球最大中文开源数据库的AISHELL-2的测试中,依图短语音听写的字错率为3.71%,官方称领先原业内领先者科大讯飞约20%。在若干近场、混响、噪声等公开测试集上,依图平均字错率 6.39%,领先讯飞 11%。加入电话、口音、语音节目、远场演讲等依图内部暂无法公开的测试集后(全部测试集共 50小时、60万汉字),依图平均字错率 8.27%,讯飞是9.30%,依图仍然领先讯飞 11% 左右。
基于不同数据测试集上,依图语音识别技术的准确率表现
其实,如果想实现真正意义上的语音交互,语音只是一部分,更重要的则是对语义的理解。 如果我们把语音技术比作人的嘴巴和耳朵,用于表达和获取;那么语义理解则是人的大脑,能够帮助信息处理和解析。 在语义理解方面,依图同样在进行技术积累。
吕昊表示:虽然此次是从语音切入,但是团队一直是语音、语义两线并行。 2017年时,依图就曾将自然语言处理(NLP)技术用于AI+医疗解决方案,结合自建的临床中文知识图谱,对医学文本等多模态数据进行解析和信息提取。今年,依图的论文更入选NLP顶会EMNLP 2018,针对计算机语言学核心问题之一的指代理解提出全新数据集PreCo并对外开放。
此前,在视觉领域,依图已经在安防、医疗、金融、零售等领域有了产品化、商业化积累。对于是否会将语音技术迁移于这些领域,吕昊回应: 这一阶段仍旧以技术积累为主,依图在开放平台上提供了自有的API和模型算法,一方面可以经由市场验证算法质量,另一方面可以由此接近不同行业和场景。
据官方信息,依图与微软联合发布的语音开放平台基于Azure Cloud,将依图的语音识别技术能力开放给广泛第三方应用开发者使用。依图和华为联合发布的“智能语音联合解决方案”则依托于依图语音开放平台及华为全栈全场景Ascend系列芯片和面向数据中心侧的Atlas 300AI加速卡,形成软硬一体化解决方案。
在未来,依图计划陆续开放长语音转写API、实时语音转写API等。正如吕昊所说:希望为第三方应用开发者在语音领域提供多一个语音技术选择。
笔者认为:结合自有的CV技术积累,依图或许可在多模态情感识别和计算领域发力,融合视觉、语音等多重数据,全方位提升机器的感知能力。在商业化层面,虽然当下的依图语音技术开放平台仍旧以技术积累为重心,但依托CV积累的的B端用户,为企业级客户提供语音解决方案只是时间早晚问题。
————
我是郑铟,36氪超人学院创始学员,关注AI、AR/VR、物联网、边缘计算、半导体,项目交流请加微信zhengbaobao097825,注明公司、职位、姓名。
超人学院相信早期生态推动社会变革,使命是为早期生态培养领袖人才,详情请戳36氪想要为进入创投圈的年轻人做一所「超人学院」,你来不来
评论留言