基于片上系统SoC的孤立词语音识别算法设计（上）

论坛元老

Rank: 8 Rank: 8

UID: 871057
性别: 男

1^#

打印

字体大小: tT

forsuccess发表于 2012-4-2 21:55 | 只看该作者

基于片上系统SoC的孤立词语音识别算法设计（上）

语音识别, 转换器, 芯片

1. 引言
目前，嵌入式语音识别系统的实现主要通过单片机MCU和数字信号处理器DSP来实现[1]。但是单片机运算速度慢，处理能力不高；虽然DSP处理速度很快，但是产品的成本很高，电源能量消耗也很大。因此，为了满足嵌入式交互系统的体积越来越小、功能越来越强的苛刻需求，语音识别片上系统SoC（System on Chip）应运而生。
语音识别片上系统SoC本身就是一块芯片，在单一芯片上集成了模拟语音模数转换器ADC、数模转换器DAC、信号采集和转换、处理器、存储器和I/O接口等，只要加上极少的电源就可以具有语音识别的功能，集成了声音信息的采集、取样、处理、分析和记忆。SoC具有片内处理器和片内总线，有着更灵活的应用方式。它具有速度快，体积小，成本低，可扩展性强等优点，有着广泛的应用前景，已经成为语音识别技术应用发展的一个重要方向[2-3]。研究和开发应用于片上系统SoC芯片的语音识别算法有着非常重要的意义。
2. 孤立词语音识别系统
孤立词语音识别系统应用于嵌入式控制领域，例如数字家庭控制、车载语音控制和智能语音可控玩具等。在训练阶段，用户将每一个词依次说一遍，并将计算得到的每一个词所对应的特征矢量序列作为模板存入模板库中。在识别阶段，将输入语音的特征矢量序列依次与模板库中的每一模板进行相似度比较，将相似度最高者作为识别结果输出。
3. 针对片上系统SOC的孤立词语音识别算法设计
在SoC芯片中实现孤立词语音识别系统，就要根据语音识别片上系统的特点，来进行SoC的语音识别算法的选择和设计。
首先是特征提取算法的选择。MFCC算法考虑到了人的听觉效果，能很好的表征语音信号，而且在噪声环境下能取得很好的识别效果。而LPC系数主要是模拟人的发声模型，对元音有较好的的描述能力，对辅音描述能力较差，抗噪声性能也相对差一些。但是从算法的计算量来考虑，MFCC提取特征参数是LPCC 的10倍左右，通常在嵌入式系统下较难实现实时性。因此，选用LPCC算法。
模式匹配技术的选择。隐马尔柯夫模型HMM方法是用概率及统计学理论来对语音信号进行分析与处理的，适用于大词汇量、非特定人的语音识别系统。该算法对系统资源的要求较多。而动态时间规整技术DTW采用模板匹配法进行相似度计算，是一个最为小巧的语音识别算法，系统开销小，识别速度快，可有效节约系统资源，降低系统成本开支。由于嵌入式系统资源有限，语音命令识别系统所需要的词汇量有限，所需识别的语音都是简短的命令，模式匹配算法选择DTW。
3.1 端点检测算法设计
一个好的端点检测算法可以在一定程度上提高系统的识别率。在双门限端点检测原理的基础上，进行语音端点检测算法的设计。为了提高端点检测的精度，采用短时能量E和短时过零率ZCR。
语音采样频率为8KHz，量化精度为16位，数字PCM码首先经过预加重滤波器H(z)=2-0.95z-1，再进行分帧和加窗处理，每帧30ms，240点为一帧，帧移为80，窗函数采用Hamming窗。然后对每帧语音进行归一化处理，即把每点的值都除以所有语音帧中数值绝对值的最大值，把值的范围从[-32767，32767]转换到[-1，1]。
在实验中发现，双门限端点检测算法对于两个汉字和三个汉字的语音命令端点检测效果不好。以语音“开灯”为例，如图1所示语音波形图中，端点检测只能检测到第一个字。

图1 改进前对语音“开灯”的端点检测

Fig2. the endpointing detection of speech “kaideng” before ameliorate
如果语音命令中两个字的间隔过长，使用双门限端点检测方法会发生只检测到第一个字的情况，在实际中“开灯”和“开门”等命令只提取了“开”字的语音，从而可能造成语音匹配的错误。
为避免该错误，采用的办法是，把可容忍的静音区间扩大到15帧 (约150ms)。在双门限的后一门限往后推迟15帧，如15帧内一直没有energy和ZCR超过最低门限，则认为语音结束；如发现仍然有语音，则继续算入在内。

图2 改进后对语音“开灯”的端点检测

Fig3. the endpointing detection of speech “kaideng” after ameliorate

改进后，整个语音信号的端点检测流程设计为四个阶段：静音、过渡段、语音段和语音结束。在静音段，如果能量或过零率超越了低门限，就应该开始标记起始点，进入过渡段。在过渡段中，由于参数的数值比较小，不能确信是否处于真正的语音段，因此只要两个参数的数值都回落到低门限以下，就将当前状态恢复到静音状态。而如果在过渡段中两个参数中的任一个超过了高门限，就可以确信进入语音段。在语音段，如果两个参数的数值降低到低门限以下，并且一直持续15帧，那么语音进入停止。如果两个参数的数值降低到低门限以下，但是并没有持续到 15帧，后续又有语音段越过低门限，那么认为语音还没有结束。最后，如果检测出的这段语音总长度小于可接受的最小的语音帧数(设为15帧)，则认为是一段噪音而放弃。
采用改进后的端点检测算法，对于单个汉字或多个汉字的语音命令均识别常。图2为语音“开灯”的端点检测图(两条红线以内的部分为检测出来的语音部分)。
3.2 LPCC特征参数提取算法设计
LPC参数是模拟人的发声器官的，是一种基于语音合成的特征参数。在实际应用中，使用较多的是由LPC系数推导出的另一种系数，线性预测倒谱系数LPCC（Linear Predictive Ceptrum Coefficients）。
3.2.1线性预测编码LPC算法
LPC模型的基本思想是：对于给定一n时刻采样的语音信号采样值s(n)，可以用p个取样值的加权和线性组合来表示[4]。 a1, a2,…, ap称为LPC系数，也是全极点H(z)模型的参数。

cm为倒谱系数，am为线性预测系统，m为倒谱系数的阶数，p为线性预测系统的阶数。这样利用LPC系数通过递推公式可以得到LPCC参数。LPCC由于利用了线性预测中声道系统函数的最小相位特性，避免了相位卷积、求复对数
3.3 基于DTW的模式匹配算法设计
3.3.1 动态时间规整DTW算法
存入模板库的各个词条称为参考模板，一个参考模板可表示为R={R(1), R(2),…, R(m),…, R(M)}。m为训练语音帧的时序标号，m =1为起点语音帧，m =M为终点语音帧，M为该模式包含的语音帧总数，R(m)为第m帧的语音LPC倒谱特征矢量。所要识别的一个输入词条语音称为测试模板，可表示为T={T (1), T(2),…, T(n),…, T (N)}，n为测试语音帧标号，模式中共包含N帧语音，T(n)为第n帧的LPC倒谱特征矢量。
比较参考模板和测试模板的相似度，可以计算它们的距离D[T,R]，距离越小则相似度越高。语音中各个段落在不同情况下的持续时间会产生或长或短的变化，大多数情况下测试模板和参考模板长度不相等N≠M，因此采用动态规整(DP)的方法。
DTW算法的实现为：分配两个N×M矩阵，分别为累积距离矩阵D和帧匹配距离矩阵d，其中帧匹配距离矩阵d(i,j)的值为测试模板的第i帧与参考模板的第j帧间的距离。算法分为两步：先要计算参考模板的所有帧和未知模板的所有帧之间的相互距离，结果存在矩阵d中；然后根据判断函数计算累积距离矩阵D，D(N,M)即为最佳匹配路径所对应的匹配距离。DTW算法约束端点条件为：起点（1,1），终点（n,m），n和m分别为测试和参考语音模板的帧序列长度。
3.3.2 应用中提高识别率的改进方法
在应用中，提高DTW识别率的办法有冗余模板法、松弛起点终点法、改进局部路径约束函数法等。
（1）冗余模板法。采用每个词条多套模板的方法，可以改进其识别效果。在实验中，采用在语音训练阶段，每个词条训练四次，即每个词条提取出4个参考模板，这样，只要测试模板与4个参考模板中的一个匹配成功，匹配结果就是正确的，这样便大大提高了识别率。
（2）松弛起点终点法。将匹配过程中的固定起点（终点）改为松弛起点（终点）。端点对齐的限制条件提高了对语音端点检测的精度要求。路径不再是从(1,1)点出发，可以从(n,m)=(1,2)或(2,1)，或(1,3)或(3,1)…点出发，称为松弛起点。同样，路径也不必在(N,M)点结束，可在(n,m)=(N,M-1)或(N-1,M)或(N,M-2)或(N-2，M)点…结束，称为松弛终点。松弛起点终点的优点是可克服由于端点检测不精确造成测试模板和参考模板起点终点不能严格对齐的问题[6]。
（3）改变局部路径约束函数法。不同的连续性条件导致了不同的路径，局部路径约束函数不一样，DTW识别效果就会不同。可以对局部约束路径进行加权处理，提高识别率。

本文中采用的模板匹配算法就是融合这三种改进技术后的动态规整算法，称之为ADTW算法。对这种算法进行了实验，得到该算法的实际识别率，并对之进行分析。

收藏分享评分

回复引用

订阅 TOP

新手上路

Rank: 1

UID: 872945

2^#

guow8t3lj发表于 2012-4-3 12:29 | 只看该作者

法国足协公布罢训事件处罚决定阿内尔卡禁赛18场

英超丽人胸不行觅常道(图)
编纂:严俏  闭注他的微专



骆亮：弗爵爷为何购贝贝?
五大活庆范特西篮球新区23日封闭
| 取范佩西一同征战范特西足球逛戏


　　听证会停止后，法邦国度队前发队让-道易斯·瓦伦丁表现，“球员们隐正在认识到了他们没有应当做那类事情，但是人们仍是得给他们机遇……如今便让人们辞别法国脚球的那一页，封闭新的篇章吧。”
矫?低估了谁的力气？鲁能战大连凶少吉少
　　体坛网讯法国外地时光8月17日，法国足协纪律委员会在巴黎总部入止了一场听证会，听证会停止之后，法国足协颁布了对于制作南非世界杯法国队罢训事情的五个主要该事己的处分抉择。其中引收内耗的重要义务己阿内尔卡被禁赛18场《切尔西球员http://www.gaba8.com》，组织罢训的队长埃妇拉被禁赛5场，副队长里贝里3场，负责止草罢训声亮的图拉朗1场，而南非世界杯小组赛最后一场谢绝出场的阿比达尔则遁功了处罚《罗马体育报http://www.esboll.net》。
体坛社区，给您出色——
　　在南非世界杯小组赛中《富勒姆体育网http://www.liien.com》，法邦队没有但惨遭淘汰，还爆出了队员辱骂主学练和个人罢训的丑闻。7月中旬，足协发布成立一个特地委员会对于彼铺启调查。8月6日，当委员会背足协结合委员会递接了调查讲演。足协经研讨以为，阿内我卡、里贝里、阿比达我、埃妇推和图推朗负有重要义务，因而决议将他们接由纪律委员会处置，然后者则正在17日入止听证会。
　　法脚协将发布罢训事情处分决议五员大将恐蒙沉罚

回复引用

TOP

返回列表