语音识别技术简史

CSDN CSDN

作者 | 陈孝良,冯大航,李智勇

出品 | AI科技大本营(ID: rgznai100)

【CSDN 编者按】语音识别自半个世纪前降生以来,一贯处于不温不火的状况,直到 2009 年深度进修手艺的长足成长才使得语音识其余精度大大提高,虽然还无法进行无限制领域、无限制人群的应用,但也在大多数场景中供给了一种便当高效的沟通体式。本篇文章将从手艺和财富两个角度往返顾一下语音识别成长的历程和现状,并理会一些未来趋势,进展能匡助更多年青年头手艺人员熟悉语音行业,并能发生情趣投身于这个行业。

语音识别,常日称为自动语音识别,英文是Automatic Speech Recognition,缩写为 ASR,首如果将人类语音中的词汇内容转换为角力机可读的输入,一般都是可以懂得的文本内容,也有或许是二进制编码或许字符序列。然则,我们一般懂得的语音识别其实都是狭义的语音转文字的过程,简称语音转文本识别( Speech To Text, STT )更合适,这样就能与语音合成(Text To Speech, TTS )对应起来。

语音识别是一项融合多学科常识的前沿手艺,笼盖了数学与统计学、声学与说话学、角力机与人工智能等底细学科和前沿学科,是人机自然交互手艺中的关键环节。然则,语音识别自降生以来的半个多世纪,一贯没有在实际应用过程获得普及认可,一方面这与语音识其余手艺缺陷有关,其识别精度和速度都达不到实际应用的要求;另一方面,与业界对语音识其余希望过高有关,实际上语音识别与键盘、鼠标或触摸屏等应是融合关系,而非替代关系。

深度进修手艺自 2009 年兴起之后,已经取得了长足提高。语音识其余精度和速度取决于实际应用情形,但在舒适情形、标准口音、常见词汇场景下的语音识别率已经跨越 95%,意味着具备了与人类相仿的说话识别能力,而这也是语音识别手艺当前成长对照火热的原因。

跟着手艺的成长,现在口音、方言、噪声等场景下的语音识别也达到了可用状况,稀奇是远场语音识别已经跟着智能音箱的兴起成为全球消费电子领域应用最为成功的手艺之一。因为语音交互供给了更自然、更便当、更高效的沟通形式,语音必定将成为未来最首要的人机互动接口之一。

当然,当前手艺还存在多少不足,如对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还需要很大的提升;此外,多人语音识别和离线语音识别也是当前需要重点解决的问题。虽然语音识别还无法做到无限制领域、无限制人群的应用,然则至少从应用实践中我们看到了一些进展。

本篇文章将从手艺和财富两个角度往返顾一下语音识别成长的历程和现状,并理会一些未来趋势,进展能匡助更多年青年头手艺人员熟悉语音行业,并能发生情趣投身于这个行业。


语音识其余手艺历程

 

现代语音识别可以追溯到 1952 年,Davis 等人研制了世界上第一个能识别 10 个英文数字发音的实验系统,此后正式开启了语音识其余进程。语音识别成长到今天已经有 70 多年,但从手艺倾向上可以大体分为三个阶段。

下图是从 1993 年到 2017 年在 Switchboard 上语音识别率的进展景遇,从图中也可以看出 1993 年到 2009 年,语音识别一贯处于 GMM-HMM 时代,语音识别率提升迟缓,尤其是 2000 年到 2009 年语音识别率根本处于阻滞状况;2009 年跟着深度进修手艺,稀奇是 DNN 的兴起,语音识别框架变为 DNN-HMM,语音识别进入了 DNN 时代,语音识别精准率获得了显著提升;2015 年往后,因为“端到端”手艺兴起,语音识别进入了百花齐放时代,语音界都在演习更深、更复杂的收集,同时行使端到端手艺进一步大幅提升了语音识其余机能,直到 2017 年微软在 Swichboard 上达到词错误率 5.1%,从而让语音识其余准确性首次超越了人类,当然这是在必然限制前提下的实验事实,还不具有普及代表性。

GMM-HMM时代

70 年月,语音识别首要集中在小词汇量、孤立词识别方面,使用的体式也首如果简练的模板成家体式,即首先提取语音旗子的特征构建参数模板,然后将测试语音与参考模板参数进行一一对照和成家,取距离比来的样本所对应的词标注为该语音旗子的发音。该体式对解决孤立词识别是有效的,但对于大词汇量、非特定人连续语音识别就力所不及。是以,进入 80 年月后,研究思路发生了重大改变,从传统的基于模板成家的手艺思路起头转向基于统计模型(HMM)的手艺思路。

HMM 的理论底细在 1970 年前后就已经由 Baum 等人竖立起来,随后由 CMU 的 Baker 和 IBM 的 Jelinek 等人将其应用到语音识别傍边。HMM 模型假定一个音素含有 3 到 5 个状况,统一状况的发音相对不乱,不合状况间是可以按照必然概率进行跳转;某一状况的特征分布可以用概率模型来描述,使用最遍及的模型是 GMM。是以 GMM-HMM 框架中,HMM 描述的是语音的短时平稳的动态性,GMM 用来描述 HMM 每一状况内部的发音特征。

基于 GMM-HMM 框架,研究者提出各类改善体式,如连络上下文信息的动态贝叶斯体式、区分性演习体式、自适应演习体式、HMM/NN 同化模型体式等。这些体式都对语音识别研究发生了深远影响,并为下一代语音识别手艺的发生做好了预备。自上世纪 90 年月语音识别声学模型的区分性演习准则和模型自适应体式被提出往后,在很长一段内语音识其余成长对照迟缓,语音识别错误率那条线一贯没有光鲜下降。


DNN-HMM时代

 

2006年,Hinton 提出深度置信收集(DBN),促使了深度神经收集(DNN)研究的清醒。2009 年,Hinton 将 DNN 应用于语音的声学建模,在 TIMIT 上获得了当时最好的事实。2011 岁尾,微软研究院的俞栋、邓力又把 DNN 手艺应用在了大词汇量连续语音识别义务上,大大降低了语音识别错误率。此后语音识别进入 DNN-HMM 时代。

DNN-HMM首如果用 DNN 模型庖代正本的 GMM 模型,对每一个状况进行建模,DNN 带来的长处是不再需要对语音数据分布进行假设,将相邻的语音帧拼接又包含了语音的时序组织信息,使得对于状况的分类概率有了光鲜提升,同时DNN还具有强大情形进修能力,可以提升对噪声和口音的鲁棒性。

简练来说,DNN 就是给出输入的一串特征所对应的状况概率。因为语音旗子是连续的,不单各个音素、音节以及词之间没有光鲜的界线,各个发音单元单子还会受到上下文的影响。虽然拼帧可以增加上下文信息,但对于语音来说照样不足。而递归神经收集(RNN)的展现可以记住更多历史信息,更有利于对语音旗子的上下文信息进行建模。

因为简练的 RNN 存在梯度爆炸和梯度消散问题,难以演习,无法直接应用于语音旗子建模上,是以学者进一步索求,斥地出了多少适合语音建模的 RNN 组织,个中最有名的就是 LSTM 。LSTM 经由输入门、输出门和遗忘门可以更好的把握信息的举动和传递,具有长短时记忆能力。虽然 LSTM 的角力复杂度会比 DNN 增加,但其整体机能比 DNN 有相对 20% 摆布不乱提升。

BLSTM 是在 LSTM 底细上做的进一步改善,不单考虑语音旗子的历史信息对当前帧的影响,还要考虑未来信息对当前帧的影响,是以其收集中沿时间轴存在正向和反向两个信息传递过程,这样该模型可以更充实考虑上下文对于当前语音帧的影响,能够极大提高语音状况分类的准确率。BLSTM 考虑未来信息的价格是需要进行句子级更新,模型演习的收敛速度对照慢,同时也会带来解码的延迟,对于这些问题,业届都进行了工程优化与改善,即使现在仍然有多少大公司使用的都是该模型组织。

图像识别中主流的模型就是 CNN,而语音旗子的时频图也可以看作是一幅图像,是以 CNN 也被引入到语音识别中。要想提高语音识别率,就需要战胜语音旗子所面临的多样性,包括说话人自身、说话人所处的情形、采集设备等,这些多样性都可以等价为各类滤波器与语音旗子的卷积。而 CNN 相当于设计了一系列具有局部关注特征的滤波器,并经由演习进修获得滤波器的参数,从而从多样性的语音旗子中抽掏出不变的部门,CNN 本质上也可以看作是从语音旗子中络续抽取特征的一个过程。CNN 对比于传统的 DNN 模型,在沟通机能景遇下,前者的参数量更少。

综上所述,对于建模能力来说,DNN 适合特征映射到自力空间,LSTM 具有长短时记忆能力,CNN 擅长削减语音旗子的多样性,是以一个好的语音识别系统是这些收集的组合。


端到端时代

 

语音识其余端到端体式首如果价格函数发生了改变,但神经收集的模型组织并没有太大改变。总体来说,端到端手艺解决了输入序列的长度弘远于输出序列长度的问题。端到端手艺首要分成两类:一类是 CTC 体式,另一类是 Sequence-to-Sequence 体式。传统语音识别 DNN-HMM 架构里的声学模型,每一帧输入都对应一个标签类别,标签需要一再的迭代来确保对齐更准确。

采用 CTC 作为损失函数的声学模型序列,不需要预先对数据对齐,只需要一个输入序列和一个输出序列就可以进行演习。CTC 关心的是瞻望输出的序列是否和真实的序列临近,而不关心瞻望输出序列中每个事实在时间点上是否和输入的序列正好对齐。CTC 建模单元是音素或许字,是以它引入了 Blank。对于一段语音,CTC 最后输出的是尖峰的序列,尖峰的位置对应建模单元的 Label,其他位置都是 Blank。

Sequence-to-Sequence 体式正本首要应用于机械翻译领域。2017 年,Google 将其应用于语音识别领域,取得了非常好的究竟,将词错误率降低至5.6%。如下图所示,Google 提出新系统的框架由三个部门组成:Encoder 编码器组件,它和标准的声学模型相似,输入的是语音旗子的时频特征;经由一系列神经收集,映射成高级特征 henc,然后传递给 Attention 组件,其使用 henc 特征进修输入 x 和瞻望子单元之间的对齐体式,子单元可以是一个音素或一个字。最后,attention 模块的输出传递给 Decoder,生成一系列假设词的概率分布,相同于传统的说话模型。

端到端手艺的打破,不再需要 HMM 来描述音素内部状况的改变,而是将语音识其余所有模块统一成神经收集模型,使语音识别朝着更简练、更高效、更准确的倾向成长。

 

语音识其余手艺现状

 

今朝,主流语音识别框架照样由 3 个部门组成:声学模型、说话模型和解码器,有些框架也包括前端处理和后处理。跟着各类深度神经收集以及端到端手艺的兴起,声学模型是近几年非常热点的倾向,业界都纷纷发布自己新的声学模型组织,刷新各个数据库的识别记录。因为中文语音识其余复杂性,国内涵声学模型的研究进展相对更快一些,主流倾向是更深更复杂的神经收集手艺融合端到端手艺。

2018年,科大讯飞提出深度全序列卷积神经收集(DFCNN),DFCNN 使用大量的卷积直接对整句语音旗子进行建模,首要借鉴了图像识其余收集设置,每个卷积层使用小卷积核,并在多个卷积层之后再加上池化层,经由累积非常多卷积池化层对,从而可以看到更多的历史信息。

2018年,阿里提出 LFR-DFSMN(Lower Frame Rate-Deep Feedforward Sequential Memory Networks)。该模型将低帧率算法和 DFSMN 算法进行融合,语音识别错误率对比上一代手艺降低 20%,解码速度提升 3 倍。FSMN 经由在 FNN 的隐层添加一些可进修的记忆模块,从而可以有效的对语音的长时相关性进行建模。而 DFSMN 是经由跳转避免深层收集的梯度消散问题,可以演习出更深层的收集组织。

2019 年,百度提出了流式多级的截断留意力模型 SMLTA,该模型是在 LSTM 和 CTC 的底细上引入了留意力机制来获取更大局限和更有层次的上下文信息。个中流式透露可以直接对语音进行一个小片段一个小片段的增量解码;多级透露堆叠多层留意力模型;截断则透露行使 CTC 模型的尖峰信息,把语音切割成一个一个小片段,留意力模型和解码可以在这些小片段上展开。在线语音识别率上,该模型比百度上一代 Deep Peak2 模型提升相对 15% 的机能。

开源语音识别 Kaldi 是业界语音识别框架的基石。Kaldi 的作者 Daniel Povey 一贯推崇的是 Chain 模型。该模型是一种相同于 CTC 的手艺,建模单元对比于传统的状况要更粗颗粒一些,只有两个状况,一个状况是 CD Phone,另一个是 CD Phone 的空白,演习体式采用的是 Lattice-Free MMI 演习。该模型组织可以采用低帧率的体式进行解码,解码帧率为传统神经收集声学模型的三分之一,而准确率对比于传统模型有非常显著的提升。

远场语音识别手艺首要解决真实场景下舒适距离内子机义务对话和处事的问题,是 2015 年往后起头兴起的手艺。因为远场语音识别解决了复杂情形下的识别问题,在智能家居、智能汽车、智能会议、智能安防等实际场景中获得了遍及应用。今朝国内远场语音识其余手艺框架以前端旗子处理和后端语音识别为主,前端行使麦克风阵列做去混响、波束形成等旗子处理,以让语音更清楚,然后送入后端的语音识别引擎进行识别。

语音识别此外两个手艺部门:说话模型和解码器,今朝来看并没有太大的手艺改变。说话模型主流照样基于传统的 N-Gram 体式,虽然今朝也有神经收集的说话模型的研究,但在实用中首要照样更多用于后处理纠错。解码器的核心指标是速度,业界大部门都是按照静态解码的体式进行,即将声学模型和说话模型组织成 WFST 收集,该收集包含了所有或许路径,解码就是在该空间进行搜刮的过程。因为该理论相对成熟,更多的是工程优化的问题,所以不论是学术照样财富今朝关注的较少。

 

语音识其余手艺趋势

 

语音识别首要趋于远场化和融合化的倾向成长,但在远场靠得住性还有多少难点没有打破,比如多轮交互、多人噪杂等场景还有待打破,还有需求较为迫切的人声星散等手艺。新的手艺应该彻底解决这些问题,让机械听觉远超人类的感知能力。这不克仅仅只是算法的提高,需要整个财富链的合营手艺升级,包括更为提高的传感器和算力更强的芯片。

单从远场语音识别手艺来看,仍然存在多少挑战,包括:

(1)反响消弭手艺。因为喇叭非线性失真的存在,纯挚依靠旗子处理手段很难将反响消弭洁净,这也阻碍了语音交互系统的推广,现有的基于深度进修的反响消弭手艺都没有考虑相位信息,直接求取的是各个频带上的增益,能否行使深度进修将非线性失真进行拟合,同时连络旗子处理手段或许是一个好的倾向。

(2)噪声下的语音识别仍有待打破。旗子处理擅长处理线性问题,深度进修擅长处理非线性问题,而实际问题必然是线性和非线性的叠加,是以必然是两者融合才有或许更好地解决噪声下的语音识别问题。

(3)上述两个问题的共性是今朝的深度进修仅用到了语音旗子各个频带的能量信息,而忽略了语音旗子的相位信息,尤其是对于多通道而言,若何让深度进修更好的行使相位信息或许是未来的一个倾向。

(4)此外,在较少数据量的景遇下,若何经由迁徙进修获得一个好的声学模型也是研究的热点倾向。例如方言识别,若有一个对照好的通俗话声学模型,若何行使少量的方言数据获得一个好的方言声学模型,若是做到这点将极大扩展语音识其余应用范畴。这方面已经取得了一些进展,但更多的是一些演习花样,距离最终方针还有必然差距。

(5)语音识其余目的是让机械可以懂得人类,是以转换成文字并不是最终的目的。若何将语音识别和语义懂得连络起来或许是未来更为首要的一个倾向。语音识别里的 LSTM 已经考虑了语音的历史时刻信息,但语义懂得需要更多的历史信息才能有匡助,是以若何将更多上下文会话信息传递给语音识别引擎是一个难题。

(6)让机械听懂人类说话,仅靠声音信息还不足,“声光电热力磁”这些物理传感手段,下一步必然都要融合在一路,只有这样机械才能感知世界的真实信息,这是机械能够进修人类常识的前提前提。而且,机械必然要超越人类的五官,能够看到人类看不到的世界,听到人类听不到的世界。

 

语音识其余财富历程

 

语音识别这半个多世纪的财富历程中,个中共有三个关键节点,两个和手艺有关,一个和应用有关。第一个关键节点是 1988 年的一篇博士论文,斥地了第一个基于隐马尔科夫模型(HMM)的语音识别系统—— Sphinx,当时实现这一系统的恰是现在的有名投资人李开复。

从 1986 年到 2010 年,虽然同化高斯模型究竟获得持续改善,而被应用到语音识别中,并且切实提升了语音识其余究竟,但实际上语音识别已经遭遇了手艺天花板,识其余准确率很难跨越 90%。多少人或许还记得,在 1998 年前后 IBM、微软都曾经推出和语音识别相关的软件,但最终并未取得成功。

第二个关键节点是 2009 年深度进修被系统应用到语音识别领域中。这导致识其余精度再次大幅提升,最终打破 90%,并且在标准情形下切近 98%。有意思的是,尽管手艺取得了打破,也涌现出了一些与此相关的产品,比如 Siri、Google Assistant 等,但与其引起的关注度对比,这些产品实际取得的成就则要减色得多。Siri 刚一面世的时候,时任 Google CEO 的施密特就高呼,这会对 Google 的搜刮生意发生根基性威胁,但事实上直到 Amazon Echo 的面世,这种根基性威胁才真的有了具体的载体。

第三个关键点恰是 Amazon Echo 的展现,纯粹从语音识别和自然说话懂得的手艺甚至功能的视角看这款产品,相对于 Siri 等并未有什么本质性改变,核心改变只是把近场语音交互变成了远场语音交互。Echo 正式面世于2015年6月,到 2017 年销量已经跨越切切,同时在 Echo 上饰演相同 Siri 角色的 Alexa 渐成生态,其后台的第三方名堂已经打破 10000 项。借助落地时从近场到远场的打破,亚马逊一举从这个赛道的落伍者变为行业领导者。

但自从远场语音手艺规模落地往后,语音识别领域的财富竞争已经起头从研发转为应用。研发比的是标准情形下纯粹的算法谁更有优势,而应用对照的是在真实场景下谁的手艺更能发生优异的用户体验,而一旦比拼真实场景下的体验,语音识别便失去自力存在的价钱,更多作为产品体验的一个环节而存在。

所以到 2019 年,语音识别似乎进入了一个相对平静期,全球财富界的首要介入者们,包括亚马逊、谷歌、微软、苹果、百度、科大讯飞、阿里、腾讯、云知声、思必驰、声智等公司,在一路疾走事后纷纷起头反思自己的定位和下一步的打法。

语音赛道里的标记产品——智能音箱,以一种大跃进的姿态展现在民众面前。2016 年以前,智能音箱玩家们对这款产品的熟悉还都停留在:亚马逊出了一款叫 Echo 的产品,功能和 Siri 相同。先行者科大讯飞叮咚音箱的出师晦气,更是加重了此外人的观望心态。真正让浩瀚玩家从观望转为积极介入的转折点是慢慢曝光的 Echo 销量,2016 岁尾,Echo 近切切的美国销量让整个世界震惊。这是智能设备从未达到过的高点,在 Echo 以前除了 Apple Watch 与手环,像恒温器、摄像头这样的产品打破百万销量已是惊人示意。这种销量以及智能音箱的 AI 属性促使 2016 年下半年,国内各大巨头几乎是同时改变立场,积极打造自己的智能音箱。

未来,回看整个成长历程,2019 年是一个明确的分界点。在此之前,全行业是突飞猛进,但 2019 年之后则起头进入对细节领域渗透和打磨的阶段,人们关注的焦点也不再是纯挚的手艺指标,而是回来到体验,回来到一种“新的交互体式事实能给我们带来什么价钱”这样更为一般的、纯粹的商业视角。手艺到产品再到是否需要与具体的形象进行交互连络,比如人物形象;流程自动化是否要与语音连络;酒店场景应该若何使用这种手艺来提升体验,诸如斯类最终都邑一一呈现在从业者面前。而此时行业的主角也会从正本的产品方过渡到平台供给方,AIoT 纵深过大,没有任何一个公司可以全线打造所有的产品。

 

语音识其余财富趋势

 

当语音财富需求四处开花的同时,行业的成长速度反过来会受限于平台处事商的供给能力。跳出具体案例来看,行业下一步成长的本质逻辑是:在具体每个点的投入产出是否达到一个普及接管的边界。

离这个边界越近,行业就越会接近滚雪球式成长的临界点,否则整体增速就会相对平缓。不管是家居、酒店、金融、教育或许其他场景,若是解决问题都是非常高投入并且长周期的事情,那对此承担成本的一方就会犹疑,这相当于试错成本过高。若是投入后,没有可感知的新体验或许销量促进,那对此承担成本的一方也会犹疑,显然这会影响值不值得上的判断。而这两个事情,归根结底都必需由平台方解决,产品方或许解决方案方对此力所不及,这是由智能语音交互的底细手艺特征所决意。

从核心手艺来看,整个语音交互链条有五项单点手艺:唤醒、麦克风阵列、语音识别、自然说话处理、语音合成,此外手艺点比如声纹识别、哭声检测等数十项手艺通用性略弱,但拜别展现在不合的场景下,并会在特定场景下成为关键。看起来关系的手艺已经相对零乱,但切换到商业视角我们就会发现,找到这些手艺距离打造一款体验上佳的产品仍然有绝大距离。

所有语音交互产品都是端到端打通的产品,若是每家厂商都从这些底细手艺来打造产品,那就每家都要竖立自己云处事不乱,确保响应速度,适配自己所选择的硬件平台,逐项整合具体的内容(比如音乐、有声读物)。这从产品方或许解决方案商的视角来看是弗成接管的。这时候就会催生响应的平台处事商,它要同时解决手艺、内容接入和工程细节等问题,最终杀青试错成本低、体验却充足好的方针。

平台处事并不需要闭门造车,平台处事的前提是要有能屏障产品不同的把握系统,这是 AI+IOT 的特征,也是有所参照的,亚马逊以前近 10 年里是同步着手做两件事:一个是持续推出面向终端用户的产品,比如 Echo,Echo Show等;一个是把所有产品所内置的系统 Alexa 进行平台化,面向设备端和名堂端同步开放SDK和调试发布平台。虽然 Google Assistant 号称单点手艺更为领先,但从各方面的事实来看 Alexa 是当之无愧的最为领先的系统平台,可惜的是 Alexa 并不撑持中文以及响应的后台处事。

国内则缺乏亚马逊这种统治力的系统平台供给商,当前的平台供给商分为两个阵营:一类是以百度、阿里、讯飞、小米、腾讯为代表的传统互联网或许上市公司;一类是以声智等为代表的新兴人工智能公司。新兴的人工智能公司对比传统公司产品和处事上的历史肩负更轻,是以在平台处事上反倒是可以主推一些更为面向未来、有特色的底细处事,比如兼容性方面新兴公司做的会加倍彻底,这种兼容性对于一套产品同时笼盖国内国外市场是相当有利的。

类比以前的 Android,语音交互的平台供给商们其实面临更大的挑战,成长过程或许会加倍的弯曲。以前经常被提到的把握系统的概念在智能语音交互背景下事实上正被授予新的内涵,它日益被分成两个不合但必需慎密连络的部门。

以前的 Linux 以及各类变种承担的是功能型把握系统的角色,而以 Alexa 为代表的新型系统则承担的则是智能型系统的角色。前者完成完整的硬件和资源的抽象和治理,后者则让这些硬件以及资源获得具体的应用,两者相连络才能输出最终用户可感知的体验。功能型把握系统和智能型把握系统注定是一种一对多的关系,不合的 AIoT 硬件产品在传感器(深度摄像头、雷达等)、浮现器上(有屏、无屏、小屏、大屏等)具有伟大不同,这会导致功能型系统的持续分化(可以和 Linux 的分化相对应)。这反过来也就意味着一套智能型系统,必需同时解决与功能型系统的适配以及对不合后端内容以及场景进行撑持的双重责任。

这双方在把握上,属性具有伟大不同。解决前者需要介入到传统的产品生产制造链条中去,而解决后者则更像应用市肆的斥地者。这里面蕴含着伟大的挑战和时机。在以前功能型把握系统的打造过程中,国内的轨范员们更多的是使用者的角色,但智能型把握系统虽然也可以参照其他,但此次必需自己来从头打造完整的系统。(国外巨头不管在中文相关的手艺上照样内容整合上事实上都非常微弱,不存在侵略国内市场的或许性)

跟着平台处事商双方的问题解决的越来越好,底细的角力模式则会逐渐发生改变,人们的数据消费模式会与今天不合。个人的角力设备(当前首如果手机、笔记本、Pad)会凭证不合场景进一步分化。比如在车上、家里、酒店、工作场景、路上、生意打点等会凭证地点和生意进行分化。但分化的同时背后的处事则是统一的,每个人可以自由的凭证场景做设备的迁徙,背后的处事虽然会针对不合的场景进行优化,但在个人偏好这样的点上则是统一的。

人与数字世界的接口,在现在越来越统一于具体的产品形态(比如手机),但跟着智能型系统的展现,这种统一则会越来越统一于系统本身。作为事实这会带来数据化水平的持续加深,我们越来越接近一个百分百数据化的世界。

 

总结

 

从手艺进展和财富成长来看,语音识别虽然还不克解决无限制场景、无限制人群的通用识别问题,然则已经能够在各个真实场景中普及应用并且获得规模验证。更进一步的是,手艺和财富之间形成了对照好的正向迭代效应,落地场景越多,获得的真实数据越多,挖掘的用户需求也更准确,这匡助了语音识别手艺快速提高,也根本知足了财富需求,解决了多少实际问题,这也是语音识别相对其他 AI 手艺最为光鲜的优势。

不过,我们也要看到,语音识其余内涵必需络续扩展,狭义语音识别必需走向广义语音识别,致力于让机械听懂人类说话,这才能将语音识别研究带到更高维度。我们相信,多手艺、多学科、多传感的融合化将是未来人工智能成长的主流趋势。在这种趋势下,我们还有多少未来的问题需要商酌,比如键盘、鼠标、触摸屏和语音交互的关系怎么改变?搜刮、电商、社交是否再次重构?硬件是否逆袭变得比软件加倍首要?财富链中的传感、芯片、把握系统、产品和内容厂商之间的关系又该若何改变?

本文获得浩瀚语音识别领域专家的指导,并引用了一些参考资料的配图,在此透露感谢,本文中的不足之处还请指摘示正。

参考资料:
[1] W. Minhua, K. Kumatani, S. Sundaram, N. Ström and B. Hoffmeister, "Frequency Domain Multi-channel Acoustic Modeling for Distant Speech Recognition," ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, United Kingdom, 2019, pp. 6640-6644.
[2] Li B, Sainath TN, Narayanan A, Caroselli J, Bacchiani M, Misra A, Shafran I, Sak H, Pundak G, Chin KK, Sim KC. Acoustic Modeling for Google Home. InInterspeech 2017 Aug 20 (pp. 399-403).
[3] Chiu CC, Sainath TN, Wu Y, Prabhavalkar R, Nguyen P, Chen Z, Kannan A, Weiss RJ, Rao K, Gonina E, Jaitly N. State-of-the-art speech recognition with sequence-to-sequence models. In2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2018 Apr 15 (pp. 4774-4778). IEEE.
[4] Li J, Deng L, Gong Y, Haeb-Umbach R. An overview of noise-robust automatic speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2014 Feb 5;22(4):745-77.
[5] 俞栋,邓力. 解析深度进修:语音识别实践. 电子工业出版社. 2016年.
[6] 韩纪庆,张磊,郑铁然. 语音旗子处理. 清华大学出版社. 2005年.
[7] 王东. 语音识别手艺的现状与未来. 2017年.
[8] https://developer.amazon.com/zh/blogs/alexa/post/92bb9391-e930-464b-8ece-1fd8b476702a/amazon-scientist-outlines-multilayer-system-for-smart-speaker-echo-cancellation-and-voice-enhancement
[9] https://venturebeat.com/2019/04/01/alexa-researchers-develop-2-mic-speech-recognition-system-that-beats-a-7-mic-array/
[10] https://yq.aliyun.com/articles/704173
[11] http://azero.soundai.com
[12] http://research.baidu.com/Blog/index-view?id=109

作者简介:

陈孝良,声智科技创始人、董事长兼CEO;冯大航,声智科技连系创始人、CTO;李智勇,声智科技计策合伙人、CSO。

【END】

#你的优惠仅剩4天# 2019 AI斥地者大会(AI ProCon)全日程信息:9月5日,伯克利大学名师精髓课程移师北京,《着手学深度进修》作者、亚马逊首席科学家李沐线下亲授「深度进修实训营」,免费GPU资源,现场还有限量书籍赠予!

9月6-7日,高文院士、李沐、驭势科技连系创始人吴甘沙、微软(中国)首席手艺官韦青、华为诺亚方舟实验室语音语义首席科学家刘群、Google Bain TensorFlow.js项目负责人俞玶连系 7 位出品人集结60+手艺大咖,探秘9大手艺论坛,深剖行业痛点,助力企业和斥地者实现手艺跃迁。

五折票倒计时仅剩4天,团购票立减600/人,扫码马上抢购!

 热 文 推 荐 

☞重磅!全球首个可视化联邦进修产品与联邦pipeline生产处事上线

任正非:进展持续使用安卓;阿里发布自研语音 AI 芯片手艺;Node.js 12.6.0 发布 | 极客头条

☞ 若何用 160 行代码,实现动态炫酷的可视化图表?

10 步教你接办同事的代码!

☞亚马逊首席科学家李沐国内首次亲授「深度进修实训营」
CSDN & 火星财经, 联手提议Libra超级节点竞选!
"学了阿里中台,却依然做不好系统?" 聊聊阿里的项目治理
若何写出让同事无法维护的代码?
你点的每个“在看”,我都负责当成了喜欢
CSDN微信号:扫描二维码关注公众号
爱八卦,爱爆料。
小编推荐
  1. NO.1 今天我们不讲历史故事

    京东图书5月30日22:00至31日22:0023.8元秒杀价,迎接点击购置▼相当多的孩子不爱读历史,一上历史课就昏昏欲睡,认为学历史就是“背书拿分”。历

  2. NO.2 Steam免费!优惠福利!鬼泣5首次限时打折!动作天尊直降100多 突突突让你一贯爽

    喜欢我的都关注我了~Remember you're not alone, I will be here, standing beside you.鬼泣5特价促销,标准版原价325元,现在打折只要214元,这代价实在太实惠了。豪

  3. NO.3 球星总决赛首秀,最牛逼的必需是他!

    32+8+5,西亚卡姆的首秀十分惊艳连续11个运动战进球,近20年总决赛最长记载第一次打总决赛,就有这个示意,太厉害了!接下来,我们去看看NBA的球

  4. NO.4 华为封杀十天之后,美国又对中国出手了,可背后原因却让人气到想笑...

    这两天一个段子被多少人转发:先是中兴,再是华为,再是大疆,美国提议与深圳市南山区粤海街道办科技园区之间的贸易战。这虽说是一个段子,

  5. NO.5 金牛座在六月也太太太太旺了吧!

  6. NO.6 詹姆斯:你们说三巨头好照样两超巨好?

    幻想景遇而论:湖人是组包括浓眉和顶薪自由球员的三巨头模式好照样只要双巨头加实力角色球员的声威好?(Bleacher Report):湖人今夏选秀,自由

  7. NO.7 星座屋一周整体运势(5.26—6.1),谁是好运top3?

    编纂 | 33图片 | 星座屋原创声明 | 本图文为原创内容,转载请标明出处

  8. NO.8 2019年“爸爸裤”火了!比短裤时髦,比阔腿裤凉快!

    导语 “ 爸爸裤 ” 时髦升级 ! 比阔腿裤更洋气 !总有小仙女问我:女生夏天穿什么衣服超好看?这个问题你们是问对人了,让我来敷陈你们,那当

Copyright 2019 三金网,让大家及时掌握各行各业第一手资讯新闻!