10月 29日,入驻两江新区数字经济产业园的AI独角兽重庆中科云丛科技有限公司在语音识别技术上取得重大突破,该企业融合图像识别与语音识别的优势,推出了全新Pyramidal-FSMN语音识别模型,大幅刷新语音识别世界纪录。
超越人类专业速记员水平
据悉,语音识别技术是智能感知的重要部分,通过语音识别,机器就可以像人类一样听懂说话,进而能够理解、思考与反馈。
近年来,在深度学习技术的帮助下,语音识别取得了极大的进展,从实验室开始走向市场,走向实用化。基于语音识别技术的输入法、搜索和翻译等人机交互场景都有了广泛的应用。
2018年6月,阿里巴巴达摩院推出了新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%,错词率降低至3.96%。
由云从科技自主研发的全新Pyramidal-FSMN语音识别模型在全球最大的开源语音识别数据集Librispeech上刷新了世界纪录,准确率提升到97.03%,将Librispeech的错词率(Worderrorrate,WER)降低至2.97%,较之前提升了25%,已超越人类专业速记员水平。
多项技术刷新世界纪录
“该突破将推动语音识别技术的大幅进步,也使得语音识别离更良好的智慧交互体验越来越近。”相关负责人告诉记者,此次突破标志着云从科技在今年4月刷新跨镜追踪技术(ReID)三项世界纪录后在新领域再次取得重大成果,也是云从科技打造核心技术闭环路径中的关键一步。
上游新闻记者了解到,云从科技核心技术闭环包括人脸识别、智能感知与智能分析三个阶段,此次语音识别突破属于智能感知中的一环。
在10月12日的国家发改委“人工智能基础资源公共服务平台”项目发布会上,云从科技创始人周曦提出了人工智能发展的五个阶段,而核心技术闭环正是五个阶段的重要基础。云从科技在今年先后首发3D结构光人脸识别技术及刷新跨镜追踪技术三项世界纪录,并在金融、安防、机场等优势行业建设基于智能分析的“行业大脑”,正稳步推进从核心技术到智能生态的五步走战略。
上游新闻记者 杨野
【免责声明】上游新闻客户端未标有“来源:上游新闻-重庆晨报”或“上游新闻LOGO、水印的文字、图片、音频视频等稿件均为转载稿。如转载稿涉及版权等问题,请与上游新闻联系。