语音识别是如何实现的?

语音识别技术有三个基本原理:首先语音信号中的语言信息是按照短时幅度谱的时间变化模式来编码;其次语音是可以阅读的,即它的声学信号可以在不考虑说话人试图传达的信息内容的情况下用数十个具有区别性的、离散的符号来表示;第三语音交互是一个认知过程,因而不能与语言的语法、语义和语用结构割裂开来。
预处理,包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等,并涉及到语音识别基元的选取和端点检测问题。
特征提取,用于提取语音中反映本质特征的声学参数,如平均能量、平均跨零率、共振峰等。
训练,是在识别之前通过让讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类,形成模式库。
最后模式匹配,是整个语音识别系统的核心,它是根据一定规则(如某种距离测度)以及专家知识(如构词规则、语法规则、语义规则等),计算输入特征与库存模式之间的相似度(如匹配距离、似然概率),判断出输入语音的语意信息。

语音识别是怎么实现的(麻烦通俗点)

一般来说是模式识别。
也就是根据你的语音,上传到服务器,在云端尽可能匹配,然后返回匹配结果。

如何实现语音识别功能

mui 框架所自带的功能!代码附上:语音识别

最后修改日期: 2021年11月3日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。