识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。 1.2 语音识别技术的应用及研究方向
语音识别技术是计算机智能接口与人机交互的重要手段之一。从目前及整个社会的发展来看,已经诞生了全球首套多语种交谈式语音识别系统E-talk。这是全球唯一拥有中英混合语言的识别系统,可以识别出普通话、粤语和英语,还可以适应不同的地方口音。由于E-talk可以提高工作效率,降低运营成本,并为用户提供便捷的增值服务,它将成为电信、证券、金融等重视客户服务的行业争相引用的电子商务应用系统。
目前,飞利浦推出的语音识别自然会话平台SpeechPearl和SpeechMania已成功地应用于国内呼叫中心,SpeechPearl中的每个识别引擎可提供高达20万字的超大容量词库,尤其在具有大词汇量、识别准确性和灵活性等要求的各种电信增值服务中有着广泛的应用。 对于语音编码而言,长期以来,在通信网的发展中,解决信息传输效率是一个极其重要的关键问题。目前科研人员已通过两个途径研究这一课题,其一是研究新的调制方法与技术,来提高信道传输信息的比特率,指标是每赫兹带宽所传送的比特数;其二是压缩信源编码的比特率。这对任何频率资源有限的传输环境来说,无疑是极为重要的,尤其是在无线通信技术决定今后通信发展命运的今天更显得重要。实际上,压缩语音编码比特率与话音存储、语音识别及语音合成等技术都直接相关。
数字语音编码技术从1938年提出PCM开始,其编码方法已有了很大的发展,如1968年提出的线性预测编码技术(LPC)、20世纪70年代末出现的隐马尔科夫技术(HMM)以及矢量量化(VQ)等。
随着技术的不断发展及网络技术的日益完善和普及,语音识别技术也出现了一些新的研究方向。
① 连续自然语音的识别。目的是能让计算机更好的理解人说的话,能让计算机更好的处理人类流畅的自然发音,该技术需要解决的难点很多,对它的研究是今后的目标之一。
②语音识别技术与多媒体技术的结合。今后的发展,人类对语音信号的需要将不仅仅局限于可懂性和正确性上了,而是需要在合成语音的美感的同时并输出辅助的视频特征,实现主持人的效果。
③不同语种的解决。不同民族有不同的语言,在如今开放的信息网络时代,不同语言之间的交流显得十分重要,因此,多语种的合成有着独特的应用价值。例如,在自动
4
电话翻译、有声电子邮件等应用中都涉及到了多语种合成的需求。 1.3 语音识别系统的基本构成
语音识别系统的总体结构如图1.1。首先通过语音的录制作为输入信号,输入的模拟语音信号要进行预处理,包括预滤波、采样和量化、加窗、端点检测、预加重等等。经过预处理后,接下来就是重要的一环:特征参数提取。要求是: (1)提取的特征参数要能有效地代表语音特征,具有很好的区分性。 (2)各阶参数之间有良好的独立性。
(3)特征参数要计算方便,最好有高效的计算方法,以保证语音识别的实时实现。
语音输入 预处理 特征提取 识别 参考 模块 训练 测度估计 识别决策 识别 结果 模板库 专家知识 图1.1 语音识别总体架构
训练阶段,将特征参数进行一定的处理之后,为每个词条得到一个模型,保存为模板库。在识别阶段,语音信号经过相同的通道得到语音参数,生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。
2语音信号的数字模型及采集
2.1 概述
为了实现语音识别,首先得对语音信号产生的原理进行一个剖析,因此,我们只有在对人的发声器官和发声机理进行研究的基础上,才能够清晰的理解到语音信号产生的数学模型。当然,人类的发音过程过于复杂性和语音信息的丰富性及多样性,所以至今为止仍未找到一种能够准确描述语音产生过程。
同样,作为接受信息的人耳的听觉系统,其听觉机理也是相当复杂的。本章将简单介绍人发声及收听的基本原理,重点介绍计算机的模拟函数wavrecord和wavplay。 2.2 语音的发音原理 2.2.1 人的发声器官
人类的语音是由人的发声器官在大脑控制下的生理运动产生的。主要由三部分组成:
5
①肺和气管产生气源;②喉和声带组成声门;③由咽腔、口腔、鼻腔组成声道,如图2.1(张雪英,2012.7)所示的发声器官模型。
图2.1 发声器官模型
肺的发声功能主要是产生压缩气体,通过气管传送到声音生成系统。气管连接着肺和喉,它是肺与声道联系的通道。
图2.2 喉的平面解剖图
喉是控制声带运动的软骨和肌肉的复杂系统,主要包括:环状软骨、甲状软骨、杓状软骨和声带。其中声带是重要的发声器官,它是伸展在喉前、后端之间的褶肉,如图2.2(张雪英,2012.7)所示,前段由甲状软骨支撑,后端由杓状软骨支撑,而杓状软骨 又与环状软骨较高部分相联。这些软骨在环状软骨上的肌肉的控制下,能将两片声带合拢或分离。声带之间的间隙称为声门。声带的声学功能主要是产生激励。位于喉前 呈圆形的甲状软骨称为喉结。
声道是指声门至嘴唇的所有发音器官,其纵剖面图如图2.3(张雪英,2012.7)所示。包括:咽喉、口腔和鼻腔。口腔包括上下唇、上下齿、上下齿龈、上下腭、舌和小舌等
6
部分。上腭又分为硬腭和软腭两部分;舌又分为舌尖、舌面和舌根三部分。鼻腔在口腔上面,靠软腭和小舌将其与口腔隔开。当小舌下垂时,鼻腔和口腔便耦合起来,当小舌上抬时,口腔与鼻腔是不相通的。口腔和鼻腔都是发生时的共鸣器。口腔中各器官能够协同动作,使空气流通过时形成各种不同情况的阻碍并产生振动,从而发出不同的声音来。声道可以看成是一根从声门一直延伸到嘴唇的具有非均匀截面的声管,其截面面积主要取决于唇、舌、腭和小舌的形状和位置,最小截面面积可以为零(对应于完全闭合的部位),最大截面积可以达到约20cm2。在产生语音的过程中,声道的非均匀截面又是随着时间在不断地变化的。成年男性的声道的平均长度约为17cm。当小舌下垂使鼻腔和口腔耦合时,将产生出鼻音来。
图2.3 声道纵剖面图
2.2.2 语音生成
在发声器官模型图2.1(张雪英,2012.7)中,空气由肺部排入喉部,经过声带进入声道,最后由嘴发声声波,形成语音。在声门(声带)以左,称为“声门子系统”,它负责产生激励震动;右边是“声道系统”和“辐射系统”。当发不同性质的语音时,激励和声道的情况是不同的,他们对应的模型也是不同的。 1. 发浊音的情况
7

