新的世界纪录在两江新区诞生!云从科技语音识别技术准确率达97.03%!

在语音识别领域,

全球科技企业的目标很一致,

那就是想"超过人类"。

10月29日,

这一目标终于实现!

AI独角兽重庆中科云丛科技有限公司在语音识别技术上取得重大突破,该企业融合图像识别与语音识别的优势,推出了全新Pyramidal-FSMN语音识别模型,超过微软、IBM、阿里、百度、约翰霍普金斯大学等企业及高校,大幅刷新语音识别世界纪录。

超越人类专业速记员水平

错词率(Worderrorrate ,WER)

是衡量语音识别技术水平的核心指标。

之前科研界设定人类错词率的界限为5.9%。

受过严格训练的专业速记员错词率在3%左右。

厉害的来了!

全新Pyramidal-FSMN语音识别模型在全球最大的开源语音识别数据集Librispeech上刷新了世界纪录,准确率提升到97.03%,将Librispeech的错词率(Worderrorrate,WER)降低至2.97%,已超越人类专业速记员水平。

同时,该模型融合图像识别与语音识别的优势,将残差卷积网络和金字塔记忆模块的序列记忆网络相结合, 能够同时有效的提取空间和时间上不同粒度的信息,对比目前业界使用最为广泛的LSTM模型,训练速度更快、识别准确率更高。

江小妹科普时间

语音识别技术发展历程:

上世纪50年代语音识别的研究起源可以追溯到上世纪50年代,AT&T贝尔实验室的Audry系统率先实现了十个英文数字识别。上世纪60年代从上世纪60年代开始,CMU的Reddy开始进行连续语音识别的开创性工作。但是这期间进展缓慢,以至于贝尔实验室的约翰·皮尔斯(John Pierce)认为语音识别是几乎不可能实现的事情。上世纪70年代上世纪70年代,计算机性能的提升,以及模式识别基础研究的发展,促进了语音识别的发展。IBM、贝尔实验室相继推出了实时的PC端孤立词识别系统。上世纪80年代上世纪80年代是语音识别快速发展的时期,引入了隐马尔科夫模型(HMM)。此时语音识别开始从孤立词识别系统向大词汇量连续语音识别系统发展。上世纪90年代上世纪90年代是语音识别基本成熟的时期,但是识别效果离实用化还相差甚远,语音识别的研究陷入了瓶颈。2006年关键突破起始于2006年。这一年辛顿(Hinton)提出深度置信网络(DBN),促使了深度神经网络(Deep Neural Network,DNN)研究的复苏,掀起了深度学习的热潮。2009年2009年,辛顿以及他的学生默罕默德(D. Mohamed)将深度神经网络应用于语音的声学建模,在小词汇量连续语音识别数据库TIMIT上获得成功。2011年2011年,微软研究院俞栋、邓力等发表深度神经网络在语音识别上的应用文章,在大词汇量连续语音识别任务上获得突破。国内外巨头大力开展语音识别研究。2017年3月2017年3月,IBM结合了 LSTM 模型和带有 3 个强声学模型的 WaveNet 语言模型。“集中扩展深度学习应用技术终于取得了 5.5% 错词率的突破”。相对应的是去年5月的6.9%。2017年8月2017年8月,微软发布新的里程碑,通过改进微软语音识别系统中基于神经网络的听觉和语言模型,在去年基础上降低了大约12%的出错率,错词率为5.1%。相对应的是去年10月的5.9%,声称超过人类。2017年12月2017年12月,谷歌发布全新端到端语音识别系统(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),错词率降低至5.6%。相对于强大的传统系统有 16% 的性能提升。2018年6月2018年6月,阿里巴巴达摩院推出了新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%,错词率降低至3.96%。2018年10月2018年10月,云从科技发布全新Pyramidal-FSMN语音识别模型,错词率(Worderrorrate,WER)降低至2.97%,较之前提升了25%,将全球语音识别准确率纪录提高至97.03%,超过受过严格训练的专业人类速记员。

江小妹不得不感慨,

厉害了,我的云从科技

在人类语音识别历史中

写下了浓墨重彩的一笔!

多次刷新世界纪录

云从科技并没有把人脸识别作为唯一的“宝”来押注,这家孵化自中国科学院的企业,并不是第一次取得这样的技术突破。

2018年2月,云从科技正式在国内首发“3D结构光人脸识别技术”。

2018年4月,云从科技“跨镜追踪技术”(ReID)技术在Market-1501,DukeMTMC-reID,CUHK03三个数据集刷新了世界纪录,其中最高在Market-1501上的首位命中率(Rank-1 Accuracy)达到96.6%,让跨镜追踪技术(ReID)技术在准确率上首次达到商用水平,人工智能从「刷脸」跨到「识人」的新纪元。

云从科技核心技术闭环包括人脸识别、智能感知与智能分析三个阶段,此次语音识别突破属于智能感知中的一环。在10月12日的国家发改委“人工智能基础资源公共服务平台”项目发布会上,云从科技创始人周曦提出了人工智能发展的五个阶段,而核心技术闭环正是五个阶段的重要基础。云从科技在今年先后首发3D结构光人脸识别技术及刷新跨镜追踪技术三项世界纪录,并在金融、安防、机场等优势行业建设基于智能分析的“行业大脑”,正稳步推进从核心技术到智能生态的五步走战略。

目前,云从科技是中国银行业第一大AI供应商。包括农行、建行、中行、招行总行等全国400多家银行已采用公司产品,为全国银行提供对比服务日均2.16亿次,同时为14.7万家社会网点提供服务。

在安防领域,公司产品已在29个省级行政区上线实战,每天比对超过10亿次,数据汇聚总量超过千亿,协助全国公安抓获超过1万名犯罪嫌疑人;

在民航领域,已有60余家机场选择云从产品,日服务旅客人数达到6千万。

营商环境持续优化两江新区打造数字经济发展高地

作为国家级开发开放新区,依托已建成的重庆市最大数字经济产业园,两江新区正不断优化营商环境,加速数字经济与实体经济融合发展,已集聚了一批数字经济优质企业。云从科技正是其中的代表之一。

“无论是在办公场地、政策扶持还是人才培养上,两江新区都给予了我们很多帮助。” 云从科技创始人周曦告诉记者,随着规模扩大,云从科技更是即将迁入重庆两江数字经济产业园二期办公,依托两江新区优势资源,云从科技正在致力整合算力、智力、数据等资源及其成果,打造人工智能平台,进一步促进人工智能在金融、安防、交通、零售、教育等重要行业的落地。

(李倩丨摄)

不只营商环境,人工智能作为将大数据、云计算资源整合、深化的纽带,在两江新区同样有着很好的产业发展环境。据周曦介绍,云从科技将通过和联通、浪潮等企业合作,把应用做活,形成场景化的解决方案,而中国联通大数据有限公司、浪潮集团等在两江新区已是早有布局。

依托良好的产业、人才、基础设施等各方面的发展优势,两江新区正在数字经济建设方面持续发力,使其成为经济高质量发展的有力支撑。依托已建成的重庆最大数字经济产业园,两江新区下一步将全面升级打造“智慧两江”,形成全市大数据智能化经济发展的领头羊、主力军、展示窗口及高技术人才与数字经济企业聚集高地。

总编:张黎 | 副总编:杜术林

主编:张科 | 编辑:操梅

两江新区新媒体工作室出品

未经允许,不得转载

上游号文章仅代表作者本人观点,不代表上游新闻立场,文责作者自负。如有文章内容、版权等问题,请联系上游新闻。
联系邮箱:syh@cqcb.com
举报
分享到

热门评论