语音识别技术的发展历史

语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。
但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。
这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。
这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。
随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰。
因此原有的模板匹配方法已不再适用。
实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。
这一时期,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。
HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。
统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。
在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。
在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。
另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。
20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。
语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。
比较有代表性的系统有:IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform语音平台,Microsoft的Whisper,Sun的VoiceTone等。
其中IBM公司于1997年开发出汉语ViaVoice语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice’98。
它带有一个32,000词的基本词汇表,可以扩展到65,000词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到95%。
该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。
我国语音识别研究工作起步于五十年代,但近年来发展很快。
研究水平也从实验室逐步走向实用。
从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。
我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。
中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。
清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。
在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。
研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。
中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。

问下视频音频解码的原理或者技术,论文要用的

未来音频技术 [日期:2006-4-18] 在未来一年内,数字信号处理、音频编码、数字内容缓存以及无线技术的快速发展,将可以满足消费者不断攀升的期望。
由此,2006 年及以后将是一个新产品、新服务、新设备以及新商机不断涌现的新纪元。
而在掌控音频内容和收听方式的市场之战中,难免会“几家欢乐几家愁”。
如今大战烽火还未点燃,四大主要音频市场与技术趋势已浮出水面。
数字信号处理器 (DSP) 数字信号处理器已发展成为一种强大且经济高效的音频处理工具,让家用音频产品如虎添翼。
随着性能的日益发展,未来的 DSP 将可以支持多声道、计算密集型音频处理算法。
通过与麦克风及扬声器阵列相集成,这些不断改进的高性能运算将能够自动匹配收听环境,或根据环境自动改变其音响效果。
在大房间中感受劣质音响效果就如同置身于空旷的电影院。
而当舒适、真实的声音环绕在精致的客厅,这里便成为了私密的家庭影院,绝不会烦扰到周围邻居。
或者,您可以戴上耳机独自感受亲临大影院般的真实与生动。
您只需对音频环境以及扬声器或耳机进行选择,DSP 运算便能据此调整音频播放效果。
对于商业用途,系统将能够根据房间大小变化自动进行调整(例如通过可变动分配器)。
在不久的将来,DSP 还将支持更广泛的自动调整功能,如对背景声音、回声、声音反馈以及实体扬声器/换能器异常的调整。
可变化的声音环境也将能够改善计算机游戏、音乐系统以及视频娱乐系统。
在采用强大的 DSP 时,一个平板多功能扬声器阵列取代了由前置、后置以及超低音辅助扬声器组成的传统模式,从而可大大减少音箱和线缆的数量。
音频编解码 MP3 格式可能是当前最为流行的数字音频编码与播放格式。
其它的音频编码器(如MP3Pro、AAC、ePAC、AC-3、Ogg-Vorbis以及WMA)均使用了类似的知觉边带技术。
它们在数据压缩比和音频质量方面的改进程度与 MP3 有所不同,需要更快的处理器以及更复杂的编码技术。
为提高光盘和调频收音机质量,许多编码器已可轻松实现 12:1 至 24:1 的文件大小压缩比。
用户通常将这些编/解码器的“质量”与音频 CD 的“质量”进行比较。
知觉编码器制造商将“光盘级质量”定义为“听者无法将其与光盘音频区分的质量”。
SA(结构音频)实为电子乐器数字接口 (MIDI),它集成了压缩数字音频与使用结构音频记分语言的命令 (SASL)。
音频结构管弦乐器合成引擎支持播放大多数(若非全部)乐器声音。
声音内容进行分别压缩后,在回放过程中利用合成管弦乐进行同步处理,继而“播放”音乐。
由于大多数声音数据为合成数据(SA 管弦乐文件指令与MIDI 文件指令类似),SA 文件大小以及压缩比接近 100:1。
由于重播设备将歌曲重混音,设备还能根据收听环境选择理想的混音方式,如在家庭环境中采用 5.1 杜比数字或 DTS 音效、个人收听时采用耳机混音器,在车内则使用 4 声道混音器。
新杜比编码器、Digital Plus 以及 MLP 无损压缩则可以提供更优异的性能,能够广泛用于消费者音频、汽车、个人电脑以及游戏市场。
Dolby Digital Plus 广播传输速率极为高效(5.1 声道音频传播速率小于 320kbps),能承载至少 8 个多声道音频节目。
同时,它还能够在单一编码位流(将在当前杜比系统中回放)中支持多种语言。
杜比 MLP无损压缩是多声道以及立体声 DVD 音频的核心技术。
MLP 无损压缩可在 DVD 音频光盘上实现达 96 kHz/24 位 6 通声道音频或 192 kHz/24 位 2 声道音频的编码。
数字内容缓存与网络技术 将您的音乐收藏存储在 MP3 播放器中,缓存或存储的数字内容(如个人视频录像机及 MP3 播放器)能够帮助您构建属于自己的、不受任何商业广告打扰的“无线电台”。
网络将日益用于按需向用户传送数字内容,以及提供与当前广播媒体性能相当的流数字音频/视频。
IP 数据包优先等级将可以帮助消除令人扫兴的节目中断现象。
为减少每组数据流的网络通信量,使其容纳更多用户,数据包还可被传输至多台不同的计算机。
改善的数字内容编码算法以及新网络使用模式将可以为消费者提供新的广播以及 CD/DVD 租赁交付途径。
正规的数字音乐下载服务仍将以合理的下载价格,涵盖电视节目、音频书籍、文献以及电影等媒体。
继家庭影院之后,家庭娱乐网络以及家庭音频与视频系统也将陆续出炉。
网状网络如同撒向某一区域的一张渔网,而 WiFi 节点则是渔网上的每一个节,负责从中心连接处传输数据。
网状网络是小城镇、乡村社区、工业区、校园以及工作小组的理想之选。
网状网络相当稳定,支持数据包在群山、建筑或密林之中选择多种路径进行传输。
当在网状网络区域内进行行驶时,可实现持续的移动互联网访问。
通过为拥有标准 CD/DVD 能力的汽车娱乐系统部署 IP 网状网络连接,用户将能够浏览实时或是缓存的网络传播内容以及流媒体娱乐内容。
社区、IP 服务以及网络公司发现,较之单个用户访问,广泛访问带来的业务模型利润更高。
由此,基础 IP 网络访问将会免费提供。
未来,广泛的个人 WiFi 设备可在您不熟悉的领域大展拳脚。
而只需进入网状网络,您便可“激活”这些设备。
比如,方便携带且设有语音提示的 GPS 设备将可引导您到达目的地。
即便没有完整的 GPS 系统,网状网络仍可向您报告您的具体方位。
无线技术 部分无线技术将大大影响您的音频未来,其中包括蓝牙 TM、ZigBeeTM、RFID 短程无线通信以及超短程磁感应。
所有这些技术可为您打造出极为轻便的“个人信息空间”。
一项称为多媒体网关控制协议 (GMCP) 的开放提议标准将支持通过蓝牙TM,传送流媒体内容。
GMCP 将首先用于汽车娱乐系统,但也将可以轻松扩展至其它用途,如博物馆步游等。
蜂窝电话的磁场位于车辆内部、小且私密,而磁感应设备还能支持其实现免提操作。
基于蓝牙或 ZigBee 的解决方案在此类情况中并不凑效。
内置于手机的 RFID 技术可支持在行驶中,使用车辆内置的免提设备进行通话。
发动机停止时,手机即恢复为正常状态。
免提汽车套件将使用可自动对准扬声器的麦克风阵列,从而能够降低背景声音、风声、震动声以及娱乐节目的声音。
由此,通话与语音的清晰度也将大幅度增强。
部署有无线网状网络的大楼可装备 IP 麦克风阵列,以提供音频安全系统,从而实现声音辨识以及地点定位。
若是此楼在地震或其它灾难中坍塌,它还能帮助救援人员找到被围困或受伤的居民。
无线 IP 扬声器还将支持智能公共地址或紧急通知系统的创建。
医院以及楼群中相同的无线网状网络将可以支持医务以及安全人员携带短程领夹式无线话筒,进行简单的语音交流、双向语音通信,并向中央调度系统发送自动定位信息。
基本寻呼由整栋楼的 IP 扬声器或某个特殊话筒持有者的 IP 扬声器完成。
类似的技术也可在家中得以利用。
如借助无线互联网接入点,老人或体弱病人可在需要紧急医疗救助时进行呼叫。
为使其不露痕迹,这些能力将通过微型包装,内置于私人首饰等物件中。
在支持无线访问的公共场所,您只需轻松敲击您的领夹式装置,便可让警务人员及其它紧急情况服务人员找到您并与您进行语音联系。
如果您有医学鉴定信息,这一装置也将如实传送该信息。
安全版装置将利用用户语音识别模式进行操作。
在未通过链接发送数据时,个人设备能收集网络周围的射频能量,从而延长其电池寿命,降低再充电频率。
家用音频市场的变化 光盘级音效通常就是大多数人所指的“高质量音频”。
未来,对音频质量以及更高的数字取样率的要求将日益攀升。
这也要求原材料、D-A(DVD-音频)转换器以及其它转换方案(比如 D 类)实现良好的数位转换,以还原出人耳可听到的高质量模拟信号。
人耳无法听到以字节数计算的位。
消费者将能远离商业媒体的“喧嚣”,轻松创建独特的个人音频娱乐(新歌荟萃、业余歌手的歌曲、互联网音频节目以及音频博客)。
由此,商业媒体的影响将日益减弱,商业性节目对消费者的销售也将举步维艰。
新型音频产品将应运而生,并可任意访问有线和无线网络。
而在小型语音邮件、电话以及会议设备中,其显示屏也将集成音频扬声器与麦克风的功能。
多声道音频/视频娱乐系统中的扬声器阵列将使线缆一片混乱的时代一去不返。
扬声器阵列还将促进真正的分屏电视的诞生。
分屏电视可使房间中左右两方的观众各自听到其所在方屏幕发出的声音。
数字高清电视将集成室内视频会议与远程显现特性,并结合波束形成器麦克风以及扬声器阵列,为室内一个或多个用户提供出色的语音清晰度。
部署有两个或多个麦克风的麦克风阵列可提高语音清晰度,减少背景噪音,并将应用于大量产品(如手机、个人电脑、家庭音频/视频系统等)中。
扬声器阵列还将用于为小型集中区域(如亭子、博物馆展示台、示范台以及宣传台)创建“声音锥区”。
同时,用户还可以利用这一阵列创建“安静锥区”,以减少某集中区域的噪音。
语音激活生物 ID 系统将用于个人安全与医疗应用、室内访问、汽车、办公室以及电子商务安全。
电视机、计算机、灯具以及其它电子设备均能通过声音命令进行操作。
“声音到文本”以及“文本到声音”系统也将日益普及。
自动娱乐与信息系统将实现定制化,籍此,每户居民都可通过使用个性化无线耳机或双向蓝牙链接,自行选择与众不同的媒体内容。
移动和室内系统仍将与媒体供应商保持交互。
听到一则广告时,您可通过直接说话(“购买歌曲”或“更多信息”)的方式,达到在互联网上点击 URL 链接的同等效果。
然后,您可使用语音命令结束购买交易。
在新的音频环境中,广告将自动变短,同时消费者可提出更多问题。
“XYZ 产品太适合您了!您想知道吗?”广告结束后的安静时段内,设备将检测是否有语音应答,或在无线或视频设备上是否有按键操作。
广告总时长不超过 5 秒钟。
不幸的是,随着内容提供商不断将产品促销信息穿插到音频或视频媒体节目中,未来您会受到更多的广告困扰。
在汽车中,语音提示将对交通状况、学校与安全速度区、道路状况以及紧急情况予以通告。
信息将通过网状网络上的无线节点或道路上的低功耗射频天线进行传输。
由于双向通信,乘客或驾驶员可迅速报告事故或其它紧急情况。
此时,地理位置将自动报告。
然而,由于跟踪乘客或驾驶员行动牵涉到隐私权,因此会限制这一能力的发展。
在这一勇者生存的音频新世界,到底谁将脱颖而出,谁将沉沦不振?答案唯在于:先进的技术。
既能掌握技术,又能把握社会/经济要务(如易用性、隐私以及难以定论的“酷感”因素)的公司将成为最终的胜者。
http://www.21ic.com/news/html/74/show12614.htm

什么是人工智能

人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。
人工智能可以对人的意识、思维的信息过程的模拟。
人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。
相关说明人工智能是一门极富挑战性的科学,从事这项工作的人必须懂得计算机知识,心理学和哲学。
人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等,总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。
但不同的时代、不同的人对这种“复杂工作”的理解是不同的。
2017年12月,人工智能入选“2017年度中国媒体十大流行语”。
2021年9月25日,为促进人工智能健康发展,《新一代人工智能伦理规范》发布。

最后修改日期: 2021年11月3日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。