计算机视觉(CV)是人工智能领域最具吸引力的赛道之一,也诞生了商汤、从云、易图、鄙视等“图像四小龙”。然而,四小龙之一的依图科技已经率先拓宽了自己的边界,涉足语音和自然语言处理(NLP)行业。
12月11日,易图公布短语音听写API,微软Azure推出易图语音开放平台,并与华为公布“智能语音Unity解决方案”。
早在2016年,计算机视觉公司第一次吸引投资者关注的时候,语音识别就是第一个大规模落地的场景。如今,百度、腾讯、JD.COM、小米都宣布了智能音箱,各类手机都配备了语音交互,智能翻译工具、智能客服等语音产品层出不穷。
那么,与同类产品相比,易图的语音技术的比较优势和市场空在哪里?未来产品落地会有什么样的按图设计?围绕这些问题,36Kr采访了易图科技首席创新官、前谷歌研究科学家鲁浩博士。
易图科技首席创新官鲁浩博士
的确,此时进入语音行业充满挑战。一方面先发优势不再,另一方面市场拥挤。科大讯飞和BAT厂商相继进入市场,市场空间似乎不大空。
对此,鲁浩表示:易图团队对沪上现有的语音识别技术做了研究,发现在很多场景下,语音识别效果并不理想,比如通话过程中语音转写准确率低,长途语音采集识别效果差,语料数据积累不足等。所以根据图,我们会从这些可优化的空中打磨模型算法,提高识别率,降低单词错误率。
在语音识别领域,15%的单词错误率是一条红线,越过了就基本不可读,而低于3%就可以认为具备了类似人类的语音识别能力。但是在真实的语言过程中,人的语速、声调、口音、声音等城市影响识别准确率。此外,与英语不同的是,汉语中庞大的语言元素,以及不同含义的谐音,给语音识别带来了更大的挑战。那么按照计划怎么处理呢?
云服务器优惠活动套餐,教你如何购买腾讯云服务器最便宜。
鲁浩告诉36Kr:目前行业内缺乏系统的规模测试和测试集,在语音识别方面缺乏经验和对比的工具。为了提高识别准确率,易图团队收集了大量真实会话数据和专业及职业类细分语料库。基于此,Itu提出了自己的多维多场景测试数据集,以此来托住模型算法。
据悉在基于全球最大的中文开源数据库AISHELL-2的测试中,根据图进行短拼音听写的单词错误率为3.71%,官方称领先前行业老大科大讯飞20%左右。在近场、混响、噪声的部分开放测试集上,图的平均误字率为6.39%,领先讯飞11%。在加入电话、口音、语音程序、远场语音等测试集(所有测试集均为50小时60万汉字)后,易图的平均单词错误率为8.27%,讯飞为9.30%,仍领先讯飞约11个百分点。
基于差分数据的测试集,显示了基于图的语音识别技术的准确性。
其实要想实现真正的语音交互,语音只是一部分,更重要的是对语义的理解。如果我们把语音技能比作人的嘴巴和耳朵进行表达和习得;那么语义理解就是人脑,可以辅助信息处理和分析。语义理解方面,根据图,我们也在积累技巧。
鲁浩表示:虽然这一次,我们从语音开始,但团队一直是语音和语义并行的。【/S2/】2017年,易图将自然语言处理(NLP)技术用于AI+医疗解决方案,连接自建的临床中文知识图谱,从医学文本等多模态数据中分析提取信息。今年,易图的论文入选NLP Summit EMNLP 2018,明确提出了一个全新的数据集PreCo作为计算机语言学核心问题之一的参考,并向公众开放。
此前,在视觉领域,易图已经在安防、医疗、金融、零售等领域积累了产品化和商业化。对于语音技能是否会迁移到这些领域,鲁浩回应:这个阶段还是以技能积累为主,在开放平台上按图提供自己的API和模型算法。一方面算法的好坏可以得到市场的验证,另一方面可以贴近不同的行业和场景。
根据官方信息,易图和微软联合宣布的语音开放平台基于Azure Cloud,将易图的语音识别技能开放给普通的第三方应用开发者。易图与华为Unity宣布的“智能语音Unity解决方案”依托易图语音开放平台、华为全栈全场景Ascend系列芯片以及面向数据中心侧的Atlas 300AI加速卡,形成软硬一体的解决方案。
未来将根据图文设计陆续开放长语音转录API和实时语音转录API。正如鲁浩所说:希望在语音领域为第三方应用开发者提供多一种语音技能的选择。
笔者认为:链接自身CV技术积累,按图索骥可能在多模态情感识别计算领域发力,整合视觉、语音等多重数据,全方位提升机械的感知能力。在商业化层面,虽然目前依图语音技术开放平台仍以技术积累为主,但依靠CV积累的B端用户为企业客户提供语音解决方案只是时间问题。