影视公众号引流方法,中文语音识别引擎，清点中国语音识别手艺公司排名-可关玩日记

计算机视觉(CV)是人工智能领域最具吸引力的赛道之一，也诞生了商汤、从云、易图、鄙视等“图像四小龙”。然而，四小龙之一的依图科技已经率先拓宽了自己的边界，涉足语音和自然语言处理(NLP)行业。

12月11日，易图公布短语音听写API，微软Azure推出易图语音开放平台，并与华为公布“智能语音Unity解决方案”。

早在2016年，计算机视觉公司第一次吸引投资者关注的时候，语音识别就是第一个大规模落地的场景。如今，百度、腾讯、JD.COM、小米都宣布了智能音箱，各类手机都配备了语音交互，智能翻译工具、智能客服等语音产品层出不穷。

那么，与同类产品相比，易图的语音技术的比较优势和市场空在哪里？未来产品落地会有什么样的按图设计？围绕这些问题，36Kr采访了易图科技首席创新官、前谷歌研究科学家鲁浩博士。

易图科技首席创新官鲁浩博士

的确，此时进入语音行业充满挑战。一方面先发优势不再，另一方面市场拥挤。科大讯飞和BAT厂商相继进入市场，市场空间似乎不大空。

对此，鲁浩表示:易图团队对沪上现有的语音识别技术做了研究，发现在很多场景下，语音识别效果并不理想，比如通话过程中语音转写准确率低，长途语音采集识别效果差，语料数据积累不足等。所以根据图，我们会从这些可优化的空中打磨模型算法，提高识别率，降低单词错误率。

在语音识别领域，15%的单词错误率是一条红线，越过了就基本不可读，而低于3%就可以认为具备了类似人类的语音识别能力。但是在真实的语言过程中，人的语速、声调、口音、声音等城市影响识别准确率。此外，与英语不同的是，汉语中庞大的语言元素，以及不同含义的谐音，给语音识别带来了更大的挑战。那么按照计划怎么处理呢？

云服务器优惠活动套餐，教你如何购买腾讯云服务器最便宜。

鲁浩告诉36Kr:目前行业内缺乏系统的规模测试和测试集，在语音识别方面缺乏经验和对比的工具。为了提高识别准确率，易图团队收集了大量真实会话数据和专业及职业类细分语料库。基于此，Itu提出了自己的多维多场景测试数据集，以此来托住模型算法。

据悉在基于全球最大的中文开源数据库AISHELL-2的测试中，根据图进行短拼音听写的单词错误率为3.71%，官方称领先前行业老大科大讯飞20%左右。在近场、混响、噪声的部分开放测试集上，图的平均误字率为6.39%，领先讯飞11%。在加入电话、口音、语音程序、远场语音等测试集(所有测试集均为50小时60万汉字)后，易图的平均单词错误率为8.27%，讯飞为9.30%，仍领先讯飞约11个百分点。

基于差分数据的测试集，显示了基于图的语音识别技术的准确性。

其实要想实现真正的语音交互，语音只是一部分，更重要的是对语义的理解。如果我们把语音技能比作人的嘴巴和耳朵进行表达和习得；那么语义理解就是人脑，可以辅助信息处理和分析。语义理解方面，根据图，我们也在积累技巧。

鲁浩表示:虽然这一次，我们从语音开始，但团队一直是语音和语义并行的。【/S2/】2017年，易图将自然语言处理(NLP)技术用于AI+医疗解决方案，连接自建的临床中文知识图谱，从医学文本等多模态数据中分析提取信息。今年，易图的论文入选NLP Summit EMNLP 2018，明确提出了一个全新的数据集PreCo作为计算机语言学核心问题之一的参考，并向公众开放。

此前，在视觉领域，易图已经在安防、医疗、金融、零售等领域积累了产品化和商业化。对于语音技能是否会迁移到这些领域，鲁浩回应:这个阶段还是以技能积累为主，在开放平台上按图提供自己的API和模型算法。一方面算法的好坏可以得到市场的验证，另一方面可以贴近不同的行业和场景。

根据官方信息，易图和微软联合宣布的语音开放平台基于Azure Cloud，将易图的语音识别技能开放给普通的第三方应用开发者。易图与华为Unity宣布的“智能语音Unity解决方案”依托易图语音开放平台、华为全栈全场景Ascend系列芯片以及面向数据中心侧的Atlas 300AI加速卡，形成软硬一体的解决方案。

未来将根据图文设计陆续开放长语音转录API和实时语音转录API。正如鲁浩所说:希望在语音领域为第三方应用开发者提供多一种语音技能的选择。

笔者认为:链接自身CV技术积累，按图索骥可能在多模态情感识别计算领域发力，整合视觉、语音等多重数据，全方位提升机械的感知能力。在商业化层面，虽然目前依图语音技术开放平台仍以技术积累为主，但依靠CV积累的B端用户为企业客户提供语音解决方案只是时间问题。