从20世纪50年代开始对语音识别的研究开始,经过几十年的发展已经达到一定的高度,有的已经从实验室走向市场,如一些玩具、某些部门密码语音输入等,随着DSP和专用集成电路技术的发展,快速傅立叶变换以及近来嵌入式操作系统的研究,使得特定人识别尤其是计算量小的特定人识别成为可能。因此,对特定人语音识别技术在汽车控制上的应用的研究是很有前途的。
特定人语音识别方法
目前常用的说话人识别方法有模板匹配法、统计建模法和连接主义法(即人工神经网络实现)。考虑到数据量、实时性和识别率等问题,作者采用了一种基于矢量量化和隐马尔可夫模型(HMM)的方法。
说话人识别系统主要由语音特征向量提取单元(前端处理)、训练单元、识别单元和后处理单元组成,其系统结构如图1所示。
图1系统组成
从上图也可以看出,每一个司机在买车后,都要把自己的声音输入到系统中,也就是培训过程中。当然,最好是安静,达到一定次数。从此,这个系统可以用于驾驶。
所谓预处理,是指对语音信号的特殊处理:预加重和分帧处理。预加重的目的是提高信号的高频部分,平坦化信号的频谱,以便于频谱分析或信道参数分析。这是通过具有6dB/倍频程高频特性的预加重数字滤波器实现的。虽然语音信号是非平稳时变的,但可以看作是局部短时平稳的。因此,语音信号分析通常是按段或帧进行处理的。
数据堂深刻理解客户的痛点,承诺严格保证数据质量。高质量的训练数据可以帮助智能驾驶AI模型更加准确,以创造更安全的驾驶体验。数据大厅提供汽车语音交互和驾驶行为的监控和识别数据。其中,普通话定位器在车载环境下采集的245小时语音数据和103282条驾驶员行为标注数据,为众多人工智能公司提供了良好的算法训练数据。
2.1语音特征向量提取单元
说话人识别系统设计的基本问题是如何从语音信号中提取代表人的基本特征。即语音特征向量的提取是整个说话人识别系统的基础,对说话人识别的误拒率和误接受率有着非常重要的影响。与语音识别不同,说话人识别利用语音信号中说话人的信息,而不考虑语音中单词的含义。它强调说话者的个性。因此,单一的语音特征向量很难提高识别率。该系统在说话人识别中使用倒谱系数加基因周期参数,而在控制命令的语音识别中仅使用倒谱系数。其中,常用的倒谱系数有两种,分别是LPC(线性预测系数)和倒谱参数(LPCC),一种是基于Mel尺度的MFLL(频率倒谱系数)参数(Mel频谱系数)。
对于LPCC参数的提取,可以使用Durbin递归算法、格型算法或Schur递归算法来获得LPC系数,进而获得LPC参数。设第1帧语音的LPC系数为αn,则LPCC的参数为1<>
设Sw(n)为非零区间的加窗语音信号,0<>
2.2培训单位
训练单元的功能是通过使用某种算法来训练每个待识别说话人的匹配参数。根据汽车应用对说话人识别的不同要求,训练单元也分为两部分:说话人识别的训练和待识别单词的训练。对于说话人识别的训练,我们训练说话人的特征,为每个合法用户建立一组或多组HMM模型,并采用基于矢量量化(VQ)的方法为每个合法用户建立VQ码书。VQ码书的设计采用LBG算法,初始码书的设置采用分裂初始码书。
在第二部分中,为控制命令中使用的每个孤立项建立几个训练样本或项样本,并且估计该项(一个或多个***)的HMM参数。HMM过程的完整描述包括两个模型参数N和M,以及三组概率度量A、B和π。为了方便起见,一个完整的模型通常表示为:λ=(N,m,π,a,b),或者简单地说:λ = (π,a,b)。对于每个条目的模型参数V,V=1~V,可以使用Baum-Welch重估算法。2.3识别单元
识别单元的作用是利用训练得到的HMM模型参数和测得的说话人基音周期,识别待识别说话人,并在一定的判断条件下估计待识别控制命令字符串。通常用最大后验概率来确定HMM模型的参数,这是用Viterbi算法实现的。
2.4后处理单元
充分利用每个说话人的声道参数和词条中每个状态持续时间的概率分布,提高系统的识别率。系统3的实施
由于汽车控制指令是有限条目和数字串的组合,无论是从目前的DSP运算速度还是空的存储来看,实时识别这些语音指令都是完全可能的,因为这些语音指令的识别属于特定人的小词汇量的连接词的识别和与文本相关的说话人确认。
识别系统的框图如图所示:在这个系统中,对计算能力和存储单元要求非常高的语音识别部分完全由DSP完成。
框图识别系统的功能是完成语音输入、A/D转换和识别,系统的核心部分是TMS320VC5410。原因是其运算速度和存储空能够满足要求。同时,它的一些并行运算硬件结构也非常适合各种语音识别算法。经过离线训练的程序、HMM参数表和相应的字典存储在程序存储器中,数据存储器存储识别过程中的中间计算数据。A/D芯片采用TLC320AD50C,包含A/D、D/A、低通滤波器和采样保持电路。模拟语音信号的输入主要是通过麦克风来保证语音门禁的安全性,转换后的数字语音数据通过同步串行通信传输到DSP。
声控汽车是未来的趋势。目前将语音技术应用于汽车的产品仅在部分玩具中使用,因此可以认为在使用语音技术的汽车控制领域有着相当大的潜在市场。
而且说话人识别技术已经发展到实用阶段,但是目前说话人识别的应用并不多。作者试图提出一种易于实现的方案,将说话人识别技术应用于实践。然而在实际应用中,说话人识别系统都面临一个共同的问题,那就是无法区分一个发音是现场发音还是录音回放。针对这种现象,笔者提出的说话人识别系统可以有效防止这种情况的发生。在实现特定的说话人识别系统时,提示文本可以通过随机或其他方法生成。如随机数串,使造假者无法提前记录,增加了行车安全性。
本文来自挽梦忆笙歌投稿,不代表舒华文档立场,如若转载,请注明出处:https://www.chinashuhua.cn/24/482556.html