语音识别技术包括哪些 语音识别最简单方法

从20世纪50年代开始对语音识别的研究开始,经过几十年的发展已经达到一定的高度,有的已经从实验室走向市场,如一些玩具、某些部门密码语音输入等,随着DSP和专用集成电路技术的发展,快速傅立叶变换以及近来嵌入式操作系统的研究,使得特定人识别尤其是计算量小的特定人识别...

从20世纪50年代开始对语音识别的研究开始,经过几十年的发展已经达到一定的高度,有的已经从实验室走向市场,如一些玩具、某些部门密码语音输入等,随着DSP和专用集成电路技术的发展,快速傅立叶变换以及近来嵌入式操作系统的研究,使得特定人识别尤其是计算量小的特定人识别成为可能。因此,对特定人语音识别技术在汽车控制上的应用的研究是很有前途的。

特定人语音识别方法

目前常用的说话人识别方法有模板匹配法、统计建模法和连接主义法(即人工神经网络实现)。考虑到数据量、实时性和识别率等问题,作者采用了一种基于矢量量化和隐马尔可夫模型(HMM)的方法。

说话人识别系统主要由语音特征向量提取单元(前端处理)、训练单元、识别单元和后处理单元组成,其系统结构如图1所示。

图1系统组成

从上图也可以看出,每一个司机在买车后,都要把自己的声音输入到系统中,也就是培训过程中。当然,最好是安静,达到一定次数。从此,这个系统可以用于驾驶。

所谓预处理,是指对语音信号的特殊处理:预加重和分帧处理。预加重的目的是提高信号的高频部分,平坦化信号的频谱,以便于频谱分析或信道参数分析。这是通过具有6dB/倍频程高频特性的预加重数字滤波器实现的。虽然语音信号是非平稳时变的,但可以看作是局部短时平稳的。因此,语音信号分析通常是按段或帧进行处理的。

数据堂深刻理解客户的痛点,承诺严格保证数据质量。高质量的训练数据可以帮助智能驾驶AI模型更加准确,以创造更安全的驾驶体验。数据大厅提供汽车语音交互和驾驶行为的监控和识别数据。其中,普通话定位器在车载环境下采集的245小时语音数据和103282条驾驶员行为标注数据,为众多人工智能公司提供了良好的算法训练数据。

2.1语音特征向量提取单元

说话人识别系统设计的基本问题是如何从语音信号中提取代表人的基本特征。即语音特征向量的提取是整个说话人识别系统的基础,对说话人识别的误拒率和误接受率有着非常重要的影响。与语音识别不同,说话人识别利用语音信号中说话人的信息,而不考虑语音中单词的含义。它强调说话者的个性。因此,单一的语音特征向量很难提高识别率。该系统在说话人识别中使用倒谱系数加基因周期参数,而在控制命令的语音识别中仅使用倒谱系数。其中,常用的倒谱系数有两种,分别是LPC(线性预测系数)和倒谱参数(LPCC),一种是基于Mel尺度的MFLL(频率倒谱系数)参数(Mel频谱系数)。

对于LPCC参数的提取,可以使用Durbin递归算法、格型算法或Schur递归算法来获得LPC系数,进而获得LPC参数。设第1帧语音的LPC系数为αn,则LPCC的参数为1<>

设Sw(n)为非零区间的加窗语音信号,0<>

2.2培训单位

训练单元的功能是通过使用某种算法来训练每个待识别说话人的匹配参数。根据汽车应用对说话人识别的不同要求,训练单元也分为两部分:说话人识别的训练和待识别单词的训练。对于说话人识别的训练,我们训练说话人的特征,为每个合法用户建立一组或多组HMM模型,并采用基于矢量量化(VQ)的方法为每个合法用户建立VQ码书。VQ码书的设计采用LBG算法,初始码书的设置采用分裂初始码书。

在第二部分中,为控制命令中使用的每个孤立项建立几个训练样本或项样本,并且估计该项(一个或多个***)的HMM参数。HMM过程的完整描述包括两个模型参数N和M,以及三组概率度量A、B和π。为了方便起见,一个完整的模型通常表示为:λ=(N,m,π,a,b),或者简单地说:λ = (π,a,b)。对于每个条目的模型参数V,V=1~V,可以使用Baum-Welch重估算法。2.3识别单元

识别单元的作用是利用训练得到的HMM模型参数和测得的说话人基音周期,识别待识别说话人,并在一定的判断条件下估计待识别控制命令字符串。通常用最大后验概率来确定HMM模型的参数,这是用Viterbi算法实现的。

2.4后处理单元

充分利用每个说话人的声道参数和词条中每个状态持续时间的概率分布,提高系统的识别率。系统3的实施

由于汽车控制指令是有限条目和数字串的组合,无论是从目前的DSP运算速度还是空的存储来看,实时识别这些语音指令都是完全可能的,因为这些语音指令的识别属于特定人的小词汇量的连接词的识别和与文本相关的说话人确认。

识别系统的框图如图所示:在这个系统中,对计算能力和存储单元要求非常高的语音识别部分完全由DSP完成。

框图识别系统的功能是完成语音输入、A/D转换和识别,系统的核心部分是TMS320VC5410。原因是其运算速度和存储空能够满足要求。同时,它的一些并行运算硬件结构也非常适合各种语音识别算法。经过离线训练的程序、HMM参数表和相应的字典存储在程序存储器中,数据存储器存储识别过程中的中间计算数据。A/D芯片采用TLC320AD50C,包含A/D、D/A、低通滤波器和采样保持电路。模拟语音信号的输入主要是通过麦克风来保证语音门禁的安全性,转换后的数字语音数据通过同步串行通信传输到DSP。

声控汽车是未来的趋势。目前将语音技术应用于汽车的产品仅在部分玩具中使用,因此可以认为在使用语音技术的汽车控制领域有着相当大的潜在市场。

而且说话人识别技术已经发展到实用阶段,但是目前说话人识别的应用并不多。作者试图提出一种易于实现的方案,将说话人识别技术应用于实践。然而在实际应用中,说话人识别系统都面临一个共同的问题,那就是无法区分一个发音是现场发音还是录音回放。针对这种现象,笔者提出的说话人识别系统可以有效防止这种情况的发生。在实现特定的说话人识别系统时,提示文本可以通过随机或其他方法生成。如随机数串,使造假者无法提前记录,增加了行车安全性。

本文来自挽梦忆笙歌投稿,不代表舒华文档立场,如若转载,请注明出处:https://www.chinashuhua.cn/24/482556.html

打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
() 0
上一篇 03-30
下一篇 03-30

相关推荐

  • 如何重新进行人脸识别

    核心答案要点:重新进行人脸识别可以在手机设置的面容ID与密码中继续操作即可。以手机iPhone12为例,重新进行人脸识别的步骤分为3步。具体操作 重新进行人脸识别可以在手机设置的面容ID与密码中继续操作即可。以手机iPhone 12为例,重新进行人脸识别的步骤分为3步。具体操作如

    2023-07-27 19:13:01
    991 0
  • u盘无法识别怎么办(U盘无法识别怎么办)

    u盘是上班族的必备产品。别看它是个小东西,其实蕴含着很大的能力。它可以用来在互联网上移动和存储信息,当计算机系统出现故障时,它可以被制成优盘重装系统。甚至可以随时随地重装。简直就是办公利器。u盘作为一款监控大容量移动存储产品,无论是体积小、便于携带、安全性好

    2023-07-27 18:26:01
    830 0
  • 拍照就能识别文字的软件 精准安全的一款识别工具

    相信大家***上都有微信,很多人只是用来聊天刷朋友圈。其实微信上隐藏着一个扫描仪功能。只要按下一个按钮,纸质手稿就会在几秒钟内变成电子文件。首先在定位器上打开微信,点击右下角的【我】-【设置】,然后点击【通用】-【发现页面管理】,找到底部的【小程序】,选择按钮

    2023-07-26 09:35:01
    340 0
  • 怎样识别新鲜猪肉

    一新鲜 怎样辨别猪肉是否新鲜可从“看”和“摸”略知一二看,就是看猪肉是否油光发亮,肉色红润,新鲜的猪肉油光发亮且色泽红润冻猪肉色泽暗淡无光泽买肉时你可以留意一下肉的颜色,颜色鲜红,非常好看的,往往;看颜色新鲜猪肉的颜色是淡红色或者淡粉色的,均匀分布,表皮肥

    2023-07-25 21:55:01
    675 0

评论列表

联系我们

在线咨询: QQ交谈

邮件:admin@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信