电脑超出工作频率范围黑屏131.6khz跟120hz怎么办

安全检查中...
请打开浏览器的javascript,然后刷新浏览器
fzithome.com 浏览器安全检查中...
还剩 5 秒&请输入您的产品关键词,多个词请用逗号隔开(例:变压器,电缆)
您当前位置:&&&&&&&&&
社会主义学院多功能演播室建设招标公告
社会主义学院多功能演播室建设招标公告
来自:采招网(http://www.bidcenter.com.cn/)
注册即可查看免费招标信息&&
服务热线:400-810-9688
如果您已经是会员请先
广东省社会主义学院多功能演播室建设采购项目公开招标公告
广东省政府采购中心(以下简称“集中采购机构”)受广东省社会主义学院(以下简称“采购人”)的委托,对广东省社会主义学院多功能演播室建设采购项目进行公开招标采购,欢迎符合资格条件的供应商参加。
中国采招 网(bidcenter.com.cn])一、采购项目编号:GPCGD7F
二、采购项目名称:广东省社会主义学院多功能演播室建设采购项目
三、采购预算:188万元
四、项目内容及需求:(采购项目技术规格、参数及要求)
1、项目内容:广东省社会主义学院多功能演播室建设
2、数量:具体数量以用户需求书为准
3、简要技术要求:详见用户需求书
4、交货期:合同签订后& 50& 日内完成供货、安装、调试和验收。
5、交货地点:用户指定地点
本项目不接受进口产品投标、不接受联合体投标。
五、投标供应商资格:
1. 供应商具备《政府采购法》第二十二条所规定的条件。
2. 供应商必须是具有独立承担民事责任能力的在中华人民共和国境内注册的法人,投标时提交有效的企业法人营业执照(或事业法人登记证)副本复印件。
3. 投标人是主要货物(指一体化演播室系统(包括软件、硬件)、液晶拼接单元、拼接处理器及会议发言系统设备)的制造商或具有主要货物的代理销售证明的代理商、经销商,或能提交本项目主要货物制造商出具的专项投标授权书及售后服务承诺函原件。
4. 供应商具备有效的工业和信息化部核定的计算机信息系统集成企业资质三级或以上资质证书。
6. 供应商具备有效的住房和城乡建设部门核定的建筑智能化工程设计与施工资质二级或以上证书。
7. 已登记报名并获取本项目采购文件。
六、符合资格的投标供应商应当在日起至日期间(办公时间内,法定节假日除外)到广东省政府采购中心(详细地址:广州市越秀区越华路118号之一)购买招标文件,招标文件每套售价150元(人民币),售后不退。
七、投标截止时间:日9时30分(此前30分钟内为递交投标文件时间)  
八、投标文件递交地点:广州市越华路118号之一901室   
九、开标时间:日9时30分&  
十、开标地点:广州市越华路118号之一901室
十一、招标文件公示/下载:招标文件下载处。
集中采购机构联系人:栾先生&&&&&&&&&&&&&&& 采购人联系人:郑先生
电话:***-********或后可见&&&&&&&&&&&&&&&&&&&&&&& 电话:/
传真:***-********或后可见&&&&&&&&&&&&&&&&&&&&&&& 传真:***-********或后可见
联系地址:广州市越华路118号之一810&&&&& 联系地址:/
邮编:510030&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& 邮编:/
广东省政府采购中心
供应商服务
供应信息发布
采购商服务
手机客户端
微信公众号
全国免费咨询热线:400-810-9688
,即可查看免费招标信息
法人/总经理
招投标负责人(招投标办)
销售人员(业务部)
后勤人员(行政部)
我同意接受网站《用户服务条款》
服务热线:400-810-9688
,即可查看免费招标信息
服务热线:400-810-9688
,优先匹配项目,提高中标率!
电子邮箱:
填写您所关注的产品关键词分,以便我们将优质招标、项目及是发送至您的邮箱。win7系统电脑,开机启动时,频幕显示超出工作频率范围……_百度知道
win7系统电脑,开机启动时,频幕显示超出工作频率范围……
结果系统坏了,应小失大了……可不要说我显示器该换了,出现这样毛病害的我经常非法重启然后就一直黑屏,进不了系统,这是怎么回事,根本不是那些问题,我刚买半个月才出现问题的?该怎么解决,显示器23、显卡坏了什么的
我有更好的答案
据你的描述,我还需要判断一个问题,你的是整体同时购买的。检查一下,如果没有问题,不是只是买了显示器和显卡吧,你安装power键是否正确,看看是不是组装的时候接反了,如果是这样,pw hd有正负极,那么就是vga接错
电脑硬件小工
但是为了避免重启后继续黑屏,去显卡驱动控制器(控制面板大图标分类可以找到)调节下分辨率和频率,你的应该是HZ,然后应用,这个时候应该显示器是正常显示的,你还要使用显示器上的菜单键,调节初始化或者复位一下,下次进系统显示器会只能识别一次你可以开机按F8在 640*480低分辨率模式下
应该是系统的显示刷新率过高导致的。你把刷新率调到60就没问题了,60HZ所有液晶都能用。
显示刷新率和分便率,设置到 你的显视器标准的。
不要超频。
是不是你的分辨率调的太高了?
2条折叠回答
其他3条回答
为您推荐:
其他类似问题
开机启动的相关知识
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。赞助商链接
当前位置: >>
数字助听器中汉语语音处理及语音增强的研究
南京邮电大学 硕士学位论文摘要 学科、专业:工学 信号与信息处理 研 究 方 向:现代语音处理与通信技术 作 者:2009 级研究生 王辉指 导 教 师:张玲华 教授题目:数字助听器中汉语语音处理及语音增强的研究英文题目: Research on Chinese Speech Processing and Speech Enhancement in Hearing Aids关 键 词: 自适应波束形成 基音频率 包络调整 辅音放大 Keywords: adaptive beamforming envelope modification pitch frequency consonant amplification 南京邮电大学硕士研究生学位论文摘要摘 要随着社会的老龄化和城市化,因衰老和噪声引起的听力障碍等问题已开始严重影响我国 社会经济发展。研究高性能,经济适用的数字助听器具有重要的社会意义。本文主要研究一 种数字助听器中基于广义旁瓣抵消器结构的汉语语音处理技术,改善广义旁瓣抵消器结构处 理中存在的缺点。 1、 归纳语音尤其是汉语语音的特性以及听觉障碍机制, 在此基础上讨论了数字助听器中 所应用到的技术,包括压缩技术、声反馈消除、语音增强、声源定位和移频技术等,分析各 类技术中所应用算法的优劣,探讨各项技术的发展趋势。 2、 对麦克风阵列语音增强算法研究现状、 原理及常见的几种麦克风阵列语音增强算法进 行了研究,考虑自适应波束形成算法在数字助听器中应用的优势,重点研究了自适应波束形 成算法的原理并进行性能分析。 3、 针对自适应波束形成算法中不可避免的存在语音泄漏,提出一种汉语处理技术,补偿 泄漏的语音。这种汉语处理技术利用汉语语音特有的基音频率信息,调整语音幅度谱包络, 提高谱包络与基频曲线形状的相似度以提高语音的可懂度。针对泄漏的语音在高频清辅音段 有较大损失的特点,在频域上对清辅音进行放大,在不改变共振峰结构的情况下,提高清辅 音的能量,同时降低语音间隔段 GSC 算法泄漏的噪声能量,提高对语音的辨别。仿真实验结 果表明,这种汉语语音处理能够补偿自适应波束形成算法造成的语音泄漏。关键词自适应波束形成基音频率包络调整辅音放大I 南京邮电大学硕士研究生学位论文ABSTRACTABSTRACTWith the aging and urbanization of society, hearing disorder caused by age and noise has influenced social economy of China seriously. A hearing aids with high performance and affordable should be researched to its important social significance. In this paper, research focused on digital hearing aids. A technology based on generalized sidelobe canceller(GSC) was discussed to improve disadvantages existed in GSC structure speech enhancement in hearing aids. 1. This paper summarized the characteristics of Chinese and the technology used in hearingaids, including compression technology, feedback cancellation, speech enhancement and frequency transposition, Analyzed the various technology and discussed trend of development. 2. Research on research status, principle and several commonly microphone array speechenhancement, the advantage of adaptive beamformer algorithm used in hearing aids was considered. The paper focused on research the principle of adaptive beamformer algorithm based on the microphone array. 3. To solve the leak of speech existed in this algorithm, a speech processing technology wasproposed to compensate the leak of speech. In this technology, amplitude spectrum envelope was modified to improve the similarity between spectrum envelope and the pitch contour with the information of pitch frequency curves so that the intelligibility of speech is improved. Considering that the speech signal has a great loss in the high frequency range, as a characteristic of the leak information, a consonant amplification method has been shown in this paper to raise the energy of voiceless consonant, reduce the noise energy and improve speech intelligibility without changing the formant structure. The simulation results show that this speech processing technology is able to compensate the leak of speech.KEY WORD amplificationadaptive beamformingpitch frequencyenvelope modificationconsonantII 南京邮电大学硕士研究生学位论文目录目录摘 要.....................................................................................................................................................I ABSTRACT....................................................................................................................................... II 目录.......................................................................................................................................................I 中英文对照表.................................................................................................................................... III 第一章 绪论 ..................................................................................................................................... 11.1 研究背景及意义 .................................................................................................................. 1 1.2 国内外助听器发展史 .......................................................................................................... 1 1.3 数字助听器基本原理 .......................................................................................................... 4 1.4 本文主要研究内容 .............................................................................................................. 5 第二章 语音及语音信号 ................................................................................................................. 62.1 语音基本理论 ...................................................................................................................... 6 2.1.1 发音的过程................................................................................................................ 6 2.1.2 语音基本特征............................................................................................................ 6 2.2 汉语语音特性 ...................................................................................................................... 7 2.2.1 元音和辅音的频谱特性............................................................................................ 7 2.2.2 汉语韵律特征............................................................................................................ 8 2.3 听觉障碍 .............................................................................................................................. 9 2.4 本章小结 ............................................................................................................................ 10 第三章 数字助听器中的基础算法 ................................................................................................. 11 3.1 压缩技术 ............................................................................................................................. 11 3.1.1 听觉动态范围.......................................................................................................... 12 3.1.2 宽动态压缩.............................................................................................................. 12 3.1.3 多通道压缩算法...................................................................................................... 13 3.2 声反馈消除算法 ................................................................................................................. 14 3.3 语音增强算法 ..................................................................................................................... 15 3.3.1 单麦克风语音增强算法.......................................................................................... 15 3.3.2 多麦克风语音增强算法.......................................................................................... 17I 南京邮电大学硕士研究生学位论文目录3.4 声源定位 ............................................................................................................................. 18 3.4.1 广义互相关法.......................................................................................................... 19 3.4.2 互功率谱相位法...................................................................................................... 20 3.4.3 自适应滤波器法...................................................................................................... 20 3.5 移频算法 ............................................................................................................................ 22 3.6 本章小结 ............................................................................................................................ 23 第四章 麦克风阵列语音增强算法 ............................................................................................... 244.1 麦克风阵列处理 ................................................................................................................. 24 4.1.1 阵列信号.................................................................................................................. 24 4.1.2 阵列信号模型.......................................................................................................... 26 4.1.3 阵列方向图.............................................................................................................. 26 4.2 固定波束形成算法 ............................................................................................................ 28 4.3 自适应波束形成算法 ........................................................................................................ 31 4.3.1 最小方差无失真响应(MVDR)波束形成器.............................................................. 32 4.3.2 广义旁瓣抵消器(GSC)结构的波束形成器............................................................ 32 4.3.3 Hoshuyama 的 GSC 结构的波束形成器................................................................... 35 4.4 后置滤波器的自适应波束形成算法 ................................................................................ 37 4.5 本章小结 ............................................................................................................................ 38 第五章 基于 GSC 结构的汉语语音处理技术 ............................................................................. 395.1 GSC 结构麦克风阵列语音增强算法性能分析 ................................................................ 39 5.2 汉语语音处理 .................................................................................................................... 42 5.2.1 调整语音幅度包络.................................................................................................. 43 5.2.2 在频域上的清辅音放大方法.................................................................................. 45 5.3 小结 .................................................................................................................................... 47 第六章 总结与展望 ....................................................................................................................... 49致 谢.................................................................................................................................................. 51 参考文献 ........................................................................................................................................... 52 附录:攻读硕士学位期间发表的论文 ........................................................................................... 56II 南京邮电大学硕士研究生学位论文中英文对照表中英文对照表阻塞矩阵 常规波束形成 系数界定自适应滤波器 互功率谱相位 数字波束形成 固定波束形成器 广义互相关法 广义旁瓣抵消器 独立成分分析 线性约束最小方差 多输入抵消器 最小方差无失真相应 范数界定的自适应滤波器 信干比 到达时间差BM CBF CCAF CSP DBF FBF GCC GSC ICA LCMV MC MVDR NCAF SIR TDOABlocking Matrix conventional beamforming Coeefictent-Constrained Adaptive Filter Cross-power Spectral Phase digital beamforming Fixed Beamformer Generalized Cross Correlation generalized sidelobe canceller independent component analysis Linearly constrained minimum variance Multiple-input Canceller minimum variance distortionless response Norm-Constrained Adaptive Filter signal to interference Time Difference of ArrivalIII 南京邮电大学硕士研究生学位论文第一章绪论第一章绪论1.1 研究背景及意义世界卫生组织(WHO)2005 年调查结果表明,全球听力残疾者大约为 2.78 亿,其中 80%听 力障碍者生活在中低收入国家,听力障碍成为最常见五种残疾(智力、视力、肢体、精神及 听力)中人数最多的一种。随着社会的老龄化和城市化,因衰老和噪声引起的听力障碍发病 率不断增加,听力障碍已开始严重影响我国社会经济发展。 目前我国约有 2800 万听力残疾人,其中 60 岁以上听力功能衰退的听障患者就占 60%以 上。据人口调查统计,每年出生的新生儿中,千分之一到千分之三的婴儿为重度听力障碍者。 听力损失虽然不影响人的生命安全,但严重影响生活质量,对于儿童患者,如果不及早进行 相关的康复治疗或者采取辅助手段,会严重影响其一生的发展,随着人们对医疗卫生问题的 日益关注,助听器的发展开始受到人们的重视。目前,使用助听器来获得听力补偿已经成为 听障者康复的主要手段。 在听障患者的治疗中,助听器扮演着重要角色。但是在发展中国家,仅 2.5%的听力损失 患者具备助听器购买能力,每年助听器产量仅可满足全球 10%的听力患者需求[1]。由于我国 没有自主知识产权的数字助听器产品,缺乏关键算法的专利,而市场上的主流数字助听器被 国外品牌垄断,价格昂贵,而且目前的数字助听器产品性能经常不能令人满意,很多听力障 碍患者都不愿佩戴助听器。我国的助听器普及率只有约 10%,远小于美国 50%的普及率。因 此,研究高性能,经济适用的数字助听器具有重要的社会意义。1.2 国内外助听器发展史《左传》中曾有“耳不听五声之和,为聋” ,可见,在很久以前,人们对听力障碍就有了 认识。在当时听力障碍已成为一种较为常见的疾病,且被人们所认知。对于这种疾病,除了 使用药物途径外,助听器作为一种听力补偿方法,有助于帮助听障患者改善听力。助听器的 发展经历了原始集声助听器时代、碳元素助听器时代、真空电子管助听器时代、晶体管和整 合电路助听器时代和数字助听器时代。 原始集声助听器时代,人们发现将手模拟成杯状放在耳后,可以察觉更细微的声音,提 高中高频的增益。于是人们通过将动物的角或贝壳等置于耳后,加大耳廓的集音面积,实现 了一个自然的助听装置。后来演化出各种声学集声助听器,如喇叭状和漏斗状集声器。但这 类助听器的构造是由很大的终端来收集尽可能多的声音,所以体积都比较大;而且拾音口需1 南京邮电大学硕士研究生学位论文第一章绪论要靠近谈话者,类似与传声电话;主要应用与一对一的交谈。 1902 年有了对一个可佩带的碳元素助听器模型,称为 Akouphone 和 Acousticon,这类助 听器一直使用到 20 世纪 40 年代,这类助听器重点在于其中的炭精麦克风和磁性耳机。当有 声音时,麦克风振动膜的运动使碳颗粒聚集或分开,改变麦克风的电阻抗,从而引起电流的 波动。经过电磁学原理放大,使受话器线圈产生波动磁场,引起振动膜发出声音,实现助听 放大的效果。 1907 年,人类发明了真空电子管放大器,而后于 1920 年应用于助听器中。但因为体积问 题,直到 1930 年才开始使用。这类助听器利用两个电源,其中低电压电源预热电子管灯丝, 当麦克风接受到声音时,产生电流波动,使灯丝放出电子。高电压电源因此放大电流提供能 量给耳机,实现声音的放大。 当晶体管进入商业性应用时,由于它的耗电较少,所以很快进入了助听器领域。由于其 体积非常小,使得助听器能够佩带在头部,甚至还有发夹式和眼镜式助听器产品出现。而后 耳背式助听器逐步替代了眼镜式助听器并成为主流。之后数字控制电路助听器和数字记忆助 听器的应用,极大推动了助听器的发展,使助听器的放大性能能够被临床工作者调整,并且 有很大的灵活性和精确性。数字控制电路可以让使用者改变助听器特性,也可以附带使用遥 控器,通过遥控器进行灵活的控制。 对数字处理的研究开始于 1960 年的贝尔实验室,数字处理技术能够实现更好的逼真度和 可操作性,所以在当时认为将助听器与数字结合具有很大的应用前景,纽约市立大学(CUNY) 的 Levitt 和美国聋人中央研究院(CID)的 Engebrebretsen 开展了助听器此方面的研究。但是由 于当时电脑运行速度低,对输入声音信号的处理跟不上声音的输出。直到 1980 年,数字处理 能量消耗和体积的减少,才使可佩戴的数字助听器发展成为可能。数字处理芯片运用到助听 器上,带来了助听器史上真正的革命。在高速 DSP 芯片问世之前,CUNY 制造出了采用阵列 处理器(anarray processor)的数字主导助听器。阵列处理器能够同时进行大量运算,它的出现 推动了 DSP 的产生。1985 年,CID 研制出一台用电池为能源的盒式试验性 DSP 助听器[2], 之后将取得专利的转让给了制造商并开始商用化。 高性能且便携的助听器有着巨大的市场需求,这也推动了制造业的发展。而制造业的企 业之间的竞争依赖于企业的研发与专利技术。企业的专利技术需求又极大的推动了助听器的 研发进程。随着 DSP 芯片的小型化和高速化,耳级(wearable)DSP 助听器也开始出现。商业 制造业也因此迅猛发展。1996 年,丹麦奥迪康和丹麦唯听同时在美国市场推出 Digifocus TM 和Senso TM 。 而后德国西门子(SIENEMS)、 瑞士峰力(Phonix)、 丹麦瑞声达、 美国斯达克(STARKEY)这些生产厂商纷纷推出各自的 DSP 助听器, 其各自的产品在时间处理, 压缩技术, 移频技术,2 南京邮电大学硕士研究生学位论文第一章绪论消噪方式,反馈消除等方面都有其各自的特点,自成体系,完成了数字助听器取代模拟助听 器,并成为主流这一步伐。据统计美国助听器市场总销售量中的 40%为数字助听器。 经过市场的肯定,已被认可的数字技术的优势有: 1、压缩技术更具有灵活性,能够根据患者自身条件调整压缩方案,依照患者自己的听力损失 曲线调整助听器压缩的拐点和压缩比。 2、智能自动处理助听器增益―频率响应, 可以根据听障者不同频段的听力损失进行分频段设 置不同的增益来补偿听障者的听力损失。 3、具有方向性,能够对来自不同方向声音的进行不同的增益,实现噪声最小化。 4、具有声反馈消除功能,使患者听觉感觉舒适。 5、比模拟助听器的能耗更小,增加实用性和便捷性。 6、数字多麦克风阵具有自动校正功能,能智能控制来自不同方向声音的增益。 7、抗电磁干扰。 在 20 世纪 40 年代, 我国著名耳科学家刘瑞华教授把国外先进的听力学相关知识引进国内, 创立了中国听力学的雏形。在发展前期阶段,国内助听器以盒式为主,且较少有专业人员来 验配,且品种单一,验配水平和设备局限性很大。 20 世纪 80 年代中期,中国政府颁布的《中国残疾人事业五年工作纲要》中明确规定,我 国要对 3 万聋儿进行听觉和言语康复。随后随着中国改革开放,国外众多知名助听器公司相 继来我国建厂投资,如丹麦的 GN DANAVOX 和奥迪康,德国的西门子听力集团,美国的斯 达克,瑞士的峰力等公司。国外的公司在推广其产品的同时,也带来了先进听力学知识的普 及。随着数字助听器的推广,中国开始出现专业的助听器验配店,助听器验配行业也从简单 自然职业向专业的行业准入、许可制度过渡。但是我国市场上的全数字助听器几乎全由国外 品牌垄断,这些公司的高端全数字助听器价格至少数万元,甚至数十万元,这种价格对于中 国普通家庭的听损患者是无法承担的。所以研究高性能,经济适用的数字助听器有着重要的 社会意义。 近年,国内一些研究机构开始进行数字助听器方面的研究工作。北京大学听觉研究中心视 觉与听觉信息处理国家重点实验室开启了数字助听器系统研究开发平台的研究;2003 年清华 大学生物医学工程系也开始搭建数字化助听器开发测试平台; 中科院声学研究所于 2008 年开 始了数字助听器的研究;东南大学也开始了数字助听器算法的研究,包括非等带宽多通道响 度补偿、基于凸集投影的自适应回声消除与声源定位。此外不少高校如上海交通大学、北京 交通大学等也有数字助听器方面的研究论文。3 南京邮电大学硕士研究生学位论文第一章绪论1.3 数字助听器基本原理模拟式助听器实质上还是一个电声放大器,数字式助听器与过去的模拟式助听器不同, 它通过将声音信号转换为数字信号,然后输入以 DSP 芯片为核心的语音处理平台。这是数字 助听器的核心部分,在这里,可以根据患者的听力损失情况,针对性的确定患者的听力补偿 方案,确定各项参数并由计算机软件导入数字助听器存储模块,然后进行相应的数字式信号 处理。处理后的数字信号经过受话器将转换为声波传入人耳。如图 1-1。图 1-1 数字助听器原理图 麦克风是传声器的俗称,它的输入输出呈线性关系,即输入声音的声压变强,输出电压 也会变高。高性能的麦克风的电流信号的波形与麦克风采集的声音信号波形是相同的。最早 的助听器都是采用单麦克风,在采音过程中,全向的接受声音。后来采用方向性麦克风,虽 然能够增加目标源的增益,但是需要人为的调整指向性麦克风的指向方向。目前许多助听器 都引入麦克风阵列的思想,实现自适应指向的功能,这部分将在第四章详细介绍。 随着技术进步,受话器结构功能也越加完善。但是受话器是产生助听器谐波失真的主要 元件,随着输出声压级的增大,失真也随之增大。受话器的机械结构精细轻巧,容易受到冲 击损害。加之耳道分泌物等容易影响受话器的性能,所以在实用过程中,受话器是最容易受 到损伤,使用寿命最短的部件。所以在助听器成品设计时,要综合考虑各种因素选取受话器 的类型。 数字助听器最为核心的部件就是 DSP 处理器,它可以实现数字助听器所要求的语音信号 处理方案。DSP 部件比较于模拟器件来说,它只需要采用数学运算,便可实现模拟信号的多4 南京邮电大学硕士研究生学位论文第一章绪论个元件结合产生的效果。比如将声音放大 6dB,数字处理只需要只需要进行乘 2 操作,这样 可以减少元器件的使用,又避免了元器件产生的线路失真,降低了产品的故障率。基于 DSP 的数字助听器可以实现以下功能: ¨ 助听器压缩技术; ¨ 自适应回声抑制; ¨ 声源定位与跟踪; ¨ 方向性语音增强; ¨ 移频压缩算法; ¨ 输出自动增益; 数字助听器通过编程可实现多参数的调整,实现以上各种功能,这部分内容将在第三章 详细描述。1.4 本文主要研究内容由于噪声环境的多样性和混响等噪声的存在,使广义旁瓣抵消器结构的语音增强算法容 易出现时延估计误差,导致出现目标语音泄漏。本文在回顾和总结前人工作的基础上,结合 实际,提出一种汉语语音处理方法,补偿泄漏的语音,通过仿真实验,表明了这些方法的有 效性。 本论文章节安排如下: 第一章主要介绍了数字助听器的研究背景、研究历史和工作原理; 第二章主要介绍了语音处理的基础知识,包括语音特性尤其是汉语语音的特性以及听觉 生理学的知识。 第三章主要介绍了数字助听器中所涉及到的基础算法。主要包括压缩技术、声反馈消除、 语音增强、声源定位和移频等方面算法。 第四章主要介绍了阵列信号处理的基础理论,并利用麦克风阵列进行语音增强算法的理 论,重点研究了目前较为广泛应用的麦克风阵列语音增强算法。 第五章提出了一种基于 GSC 结构的汉语语音处理技术, 通过对 GSC 结构语音增强算法进 行性能分析,分析泄漏语音的成分,提出一种汉语语音处理技术来补偿泄漏的语音。仿真的 结果表明,这种处理方法能够有效的补偿泄漏的语音。5 南京邮电大学硕士研究生学位论文第二章语音及语音信号第二章语音及语音信号语音,由人类发音器官发出,具有一定意义,是声音和意义的结合而进行信息交流的声 音,其中声音是语音的物质形式。语音是语言形、音、义三个基本属性中的第一属性,直接 记录了人类的思维活动。人类的语言首先是以语音的形式形成的,语音和语义相互联系形成 语言,这种联系在人类长期语言实践中约定好,体现着语音的社会属性。相比于另外两种信 息源:图像和文字,语音的信息交换形式最为有效、方便和常用。另外语音不仅包含了实际 的交流信息,还包含着喜怒哀乐等情绪信息,这个是图像和文字中不易体现的。语音的信息 传递在人类信息交流中具有极其重要的地位,因此,语音信号处理技术的研究是数字助听器 的重点内容。在数字助听器中对语音进行数字处理,首先需要了解发音的过程以及语音所具 有的特性,同时了解听觉的生理过程。2.1 语音基本理论2.1.1 发音的过程人的发音器官由三部分组成:呼吸器官(气管、肺和支气管) ,这是产生语音的动力来源; 咽喉和声带,这是产生空气振动的部分;口腔(舌、唇、腭、小舌) 、咽腔、鼻腔,这是发音 的共鸣器以产生共振。 发音时,由肺部周围肌肉收缩,空气从肺呼出,经过气管到喉头的由两片肌肉构成的声 带开口处。在发声时,声门处的声带肌肉收缩使声带并拢,形成一个很小的缝隙。当这股直 流空气冲过这个缝隙的时候,声带向两边张开,气流通过变大的缝隙导致声门处压力减小, 声带恢复到平衡位置并趋于闭合。如此循环,这样声带就产生了一定频率的振动。声带振动 激发声道中的空气发生振动,并由口和鼻向两处像外辐射,最后产生声音。2.1.2 语音基本特征根据语音信号的激励方式不同,可以将其大致分为三类: 1. 浊音。当气流通过声门时,声带的张力与气流的相互作用,使声带的两片肌肉产生张 弛振动,从肺部冲出的空气变成具有准周期性质的脉冲气流。这股脉冲气流激励声道 产生了浊音 (Voiced Speech)。浊音在时域上呈周期性,这个准周期也被称为基音周期 (Pitch),在频域上则具有共振峰结构特性,能量也主要集中在较低频段上。基音周期 与个人的声带结构和发音习惯有关,具有较大的个人特征。6 南京邮电大学硕士研究生学位论文第二章语音及语音信号2. 清音及摩擦音。当声带肌肉不进行张弛振动,而在某处收缩,肺部挤压空气,使气流 高速通过声带收缩处,形成湍流就产生了清音(Unvoiced Speech)或摩擦音。清音的频 谱范围比较广,且高频成分较强。 3. 爆破音。如果声道在完全闭合的状态下,突然张开,那么肺部挤压空气使空气瞬间释 放,就产生了爆破音。 语音和声音一样,由音高、音强、音长和音色四要素组成。 ¨ 音高,即声音的高低,它决定于声带的振动频率,且呈正比关系,是基音频率的一种 表现形式。在汉语中,音高的变化还有区别词义和语气的作用,即可以区别声调。 ¨ 音强,顾名思义即声音的强度。这个强弱是与声带振动幅度相关的,表现为人们听到 的音量。 ¨ 音长, 是指声音的长短, 它决定于声带振动时间的长短, 振动时间约长, 声音也越长, 反之声音则短。 ¨ 音色,即声音的特色,音的感觉特性。根据不同的音色,即使其他声音要素相同的情 况下,我们可以分辨出不同发声体。在汉语中,从音色的角度出发,还可以划分出语 音最小单位――音素。 人能听到的声音频率范围为 20Hz 至 20kHz,不同频率的声音具有不同的特点。 在低频段 20Hz 到 200Hz 范围内,决定着声音的丰满度和浑厚度。 中低音频段 200Hz 到 600Hz 范围内,这是人的语音的基音的频段,绝大部分男声女声的 基音频率都在这个范围,而一些主要乐器的主音区也在这个频段。 中高频段 600Hz 到 6kHz 内,自然音乐能量最集中,在这个频段人耳听觉最为灵敏,这部 分声音的幅度影响着听觉的感受,也控制着人对声音的距离感。 高频段高于 6kHz,这个频段的声音影响音色的清晰度和明亮度。2.2 汉语语音特性2.1.2 节中提到将语音分为清音和浊音。而汉语传统的分类方法是将汉语中一个音素或几 个音素结合起来形成的一个单位――音节。对汉语音节的不同位置进行划分,可将汉语音节 分为声母、韵母和声调。汉语语音的基础是汉语拼音,由 10 个元音和 22 个辅音组成。2.2.1 元音和辅音的频谱特性汉语元音属于浊音,不同的元音音色特点表现在在其各自的频谱结构中,元音具有共振 峰结构,与基音频率相关,并携带音节的大部分能量。7 南京邮电大学硕士研究生学位论文第二章语音及语音信号元音的辨别主要依靠其共振峰的结构来区别。在 10 个元音中,如元音 i 的共振峰结构具 有最低的第一共振峰和最高的第二共振峰;元音 u 相对于其他元音,第一共振峰和第二共振 峰都很低;元音 a 的第一共振峰在所有元音中最高,而第二共振峰很低。所以对于元音的辨 识来说,准确的共振峰结构有利于听者的辨识。因此在数字汉语语音处理中,最重要的一点 是不能改变语音的共振峰结构。 相对于元音来说,辅音的能量较小,比元音更短促,并且辅音在发音时,声道变化剧烈, 容易受到后续元音的影响。因此辅音的分析更为复杂,可具体分为不送气清塞音(b、d、g)、 送气清塞音(p、t、k)、清擦音(f、s、sh、x、h)、不送气清塞擦音(z、zh、j)、送气清塞擦音(c、 ch、q)、浊擦音(r)、鼻音(m、n)、边音(l)[3]。除了鼻音、边音和半元音外,其他辅音都是以无 规则噪声来激励声道。 辅音具有以下特点: 1. 浊擦音和鼻音具有和元音一样的频谱结构。它的共振峰突出,但是因为共振峰阻尼较 大,在高阶共振峰的能量较弱,所以第一共振峰显的比较突出。 2. 一般清辅音的频谱范围比较广,高频成分较强。当这部分的高频成分被削弱,语音的 音色和自然度会差很多,但是依靠过渡音段还是可以将语音听懂。反之如果高频成分 太强,则会使声音发毛。 3. 辅音成分强度相对较低,辅音的不清晰会造成语音的清晰度和自然度降低,且辅音带 有话语的主要信息,影响语音的辨识效果。2.2.2 汉语韵律特征汉语的韵律特征主要包括音高、音强、音长和音色四要素。 在汉语中,音高一般可以理解为声调,汉语中的四种声调变化对应着基音频率的变化。 从物理学角度来说,音调的变化其实对应基音频率的变化,即基频随声调变化而变化。同时 语音的幅度包络的起伏变化表现为声调,这种语音包络幅度曲线与基音频率曲线有一定相似 性,当相似性越高,语音的可懂度也相应提高。因此这方面可用物理的方法来处理。这部分 内容将在第五章中详细描述。 音强在词语的辨别方面有重要作用,在汉语中有轻重音的侧重来表达词义,如表示方向 的‘东西’和表示物体的‘东西’ 。因此可以通过增强轻重音来正确辨识词义。 辅音的音长相对稳定,而元音的音长在不同的语义和语气下变化较大。 音色与个人的发音器官结构、发音方法有关,每个人都具有其各自特色。8 南京邮电大学硕士研究生学位论文第二章语音及语音信号2.3 听觉障碍在人们进行语言信息交流时,听力系统在信息接收方面扮演重要的角色。当听力系统的 任一个部位发生病变时,都会造成不同程度的听觉损失,甚至于丧失听力,影响正常的生活。 引起听力障碍的因素很多,有先天因素如遗传、母亲妊娠期间患病或药物中毒,还有环境因 素如营养素缺乏、高烧、中耳炎、头部外伤及其他疾病。仅有少量的患者可以通过医疗或自 愈等完全或部分恢复,少部分患者可以采用植入电子耳蜗来得到听觉。剩余患者主要是通过 佩戴助听器来达到听力补偿的目的。 按照 耳 聋的性 质可 以 将其划 分为传 导性耳 聋 (conductive hearing loss)、感音 性耳聋 (sensorineural hearing loss)以及混合性耳聋。当病变发生在外耳和中耳,听觉系统的导音功能 受影响,如外耳中耳发育畸形、外耳道阻塞性疾病、中耳炎性或非炎性疾病、耳硬化等都会 引起传导性听力损失,这类患者为传导性耳聋,主要通过手术等医疗手段来治愈。病变发生 在末稍感受器、听神经传导途径和听中枢等部位容易造成感音性耳聋,感音功能受损。感音 性耳聋主要包括耳蜗性耳聋、神经性耳聋、中枢性耳聋。 助听器主要适用于感音神经性耳聋患者人群。感音神经性耳聋是永久性的,无法使用药 物或者其他医疗手段治疗。这类患者的外耳、中耳的声音传导系统正常,病变发生在斡旋神 经节或者听神经传导通路上,致使听觉器官对声音感知发生畸变或障碍。这种情况下,听觉 神经大部分是完好的,内耳的感音功能也存在,尚具有残余听力,因此这类患者可以通过选 配助听器的方法来补偿其损失的听觉功能。 感音神经性耳聋尚具有残余听力,其临床表现为: 高频听力首先受损,逐渐向中低频扩散,最后普遍降低。这时听阈上升,在某些频率域 上,患者需要比正常耳更大的声压才能听见声音,即为听阈(SRT)上升,高于正常人。同时痛 阈(UCL)下降,正常耳能承受的声音,患者已感觉声压过大。总体效果是听力患者的听觉动 态范围缩小。 1. 频率分辨率降低。人耳具有听觉掩蔽效应,在符合某种情况下,强度大的声音能够掩 蔽强度小的声音。虽然听力障碍患者的受损耳依旧存在听觉掩蔽效应,但是听障患者 常常对频率相近的两个声音无法准确分辨,对于听觉掩蔽效应中的声强大掩蔽声强 小、先到的声音掩蔽后到的声音等情况的分辨能力比正常人较弱。同时听障患者还存 在着高频耳鸣,影响正常声音的收听。 2. 语义辨别能力降低。感音神经性耳聋在高频部分损失严重,汉语中清辅音的高频成分 较强,这就造成了听障患者的清辅音成分不易辨别。而清辅音是汉语语音中的细节部9 南京邮电大学硕士研究生学位论文第二章语音及语音信号分,影响着听者的言语理解。因而听障患者在听的时候会遗漏语音的细节部分,影响 着正确辨别语音。 同时听障患者的听觉掩蔽效应较弱, 在环境中有噪声和竞争语音时, 言语识别的能力也大大降低,在声音的方位识别上的能力也有相应的减弱。 助听器能够针对听障患者自身的听力损失情况,将患者周围的声音信息进行一系列处理, 实现语音的听力补偿、消噪、增益、移频等处理,利用患者的残留听力,使患者能够通过助 听器获取周围的声音信息。对于听力损失各有不同的听障患者,一般的声音放大装置不能满 足患者的舒适性、最优补偿的要求,数字助听器在语音处理方面的针对性使其成为感音神经 性耳聋患者听力恢复的重要手段。2.4 本章小结本章节首先介绍了语音的基本理论、语音产生的过程以及语音的基本特征。针对汉语的 特性,介绍了元音和辅音的频谱特性以及汉语的韵律特征,同时了解听觉的生理过程及听觉 障碍机制。本章重点在汉语语音特性的研究,并在第五章中根据汉语语音特性进行针对性处 理。10 南京邮电大学硕士研究生学位论文第三章数字助听器中的基础算法第三章 数字助听器中的基础算法数字助听器比模拟助听器来说,有更大的精确度,更小的内部噪声,更小的失真。这些 优点使数字助听器有了更强的自适应功能。但是,许多听障患者依旧抱怨助听器无法再各种 环境中都听的清楚,舒适。尽管制造工艺和适配程序都会对助听器效果产生影响,但作为数 字助听器的核心灵魂部件,DSP 采用的算法对性能起到决定性作用。 算法是数字助听器的灵魂,目前数字助听器主要包括的算法有:压缩技术、声反馈消除、 声源定位与方向性语音增强、 移频等算法。 这些算法都是满足 DSP 实时性和计算量的情况下, 以不破坏语音结构,降低语音辨识率(Speech Intrlligibility, SI)为前提,使听障患者听觉最舒适 且实现最高语音辨识率的同时,尽量做到系统计算量小,消耗存储量小,输出延迟小。设计 助听器语音处理方案是本文的核心,本章将详细描述数字助听器中的基础算法。3.1 压缩技术在助听器的基础算法中,压缩技术是首先需要考虑到的。它能够根据听障患者听力残缺 情况,针对性的进行听力补偿,使患者听觉感官上最舒适[4]。最早人们认为听损患者的听力 下降,是由于接收到的声波能量减少,且患者本身对声音的灵敏度降低,故而言语理解度也 降低。所以早期的压缩技术仅只是对声音进行增益,在声压级超过一定阈值时,进行限幅。 如图 3-1 为输入输出关系图。图 3-1 输入输出增益关系图 这种简单的增益虽然能放大声音的能量,由于听障患者听觉动态范围变窄,且伴有重振 现象,往往不能显著提高听障患者的言语理解能力,反而会使患者感觉不舒适。11 南京邮电大学硕士研究生学位论文第三章数字助听器中的基础算法3.1.1 听觉动态范围听觉动态范围是指人耳从听阈(勉强听到)到不适阈(声音大到难以忍受)的声强范围。正常 人的听阈为 10dB 左右,不适阈为 100dB 左右,动态范围为 90dB。而大部分听障患者,在损 失的频率范围内,对声音的感知能力大大降低,听力动态范围减小。这可以表现为,在某个 频率范围内,正常人可听到的较低的声音而听障患者无法听到;正常人可以忍受的较高声音, 听损患者已不能忍受。如图 3-2 所示。其中 UCL 为不适阈,MCL 为最适阈,SRT 为听阈, 左边为正常听力者,右边为听力损伤者。140 dB SPL UCL MCL 70 100 85 70 50 SRT SDT (a) 20 0 (b) 0 140 dB SPL图 3-2 听力正常者与听力损伤者听力指标映射图 如图中所示,听力患者除听阈上升外,最适阈和不适阈都发生改变,很多听损患者随着 听阈的提高,其不适阈反而降低。即当声音强度超过听阈后,随着声强的增加,会感觉到声 音增大异常,表现为小声听不到,大声受不了。3.1.2 宽动态压缩过去助听器的压缩限幅无法满足耳聋患者的需求,经常发生 3.1.1 节所描述的情况,小声 听不见,大声受不了。为了使感音神经性耳聋与正常人的的动态范围相符合,压缩放大技术 被采用进来。线性放大输入输出呈线性关系,助听器对所有声强放大倍数均相同,只有在不 适阈以上时才采用削峰技术限制幅度,这种方法主要应用于传导性听力损失中。压缩放大不 同于线性放大,它是非线性的,对低声压声音放大倍数大,对高声音声压放大倍数小,将整 个言语动态范围按比例均匀的压缩到患者变窄的的动态范围内,这就是压缩的原理。在进行 压缩的同时,为了避免大声时的最大输出幅度必须加以控制,其原则是将最大输出控制在接 近听障者的不适阈处。根据图 3-2 的正常听力与听障听力指标映射图,其输入输出关系如图12 南京邮电大学硕士研究生学位论文第三章数字助听器中的基础算法3-3。图 3-3 宽动态压缩的输入-输出关系图3.1.3 多通道压缩算法听障患者的听力损失曲线具有多样性,比如在某一频段范围内的听觉动态范围和正常人 相差不大,而在另一频段范围内的听觉动态范围缩小严重。因此,单通道压缩很难准确完全 的匹配患者不同频率段的听力损失。单通道压缩只要信号全频域中某个频率的强度超过压缩 阈值,就启动压缩放大,信号中不同频率分量的增益相同。而多通道则具有更强的针对性, 它将信号分成数个频段,当某个频段的强度超过压缩阈值,仅仅启动该通道的压缩算法,而 其他频带的信号依旧采用线性放大。但是经过多通道压缩,该频段信号与其他频带信号的强 度比例发生变化,所以多通道压缩的参数设置需要更加准确,否则处理后的效果会适得其反。 目前许多数字助听器都开始采用多通道压缩的方法[5]。 如丹麦 Oticon 公司的 DigiFocus 系 列便是采用插值半带滤波器实现等带宽均匀分布 8 通道滤波器组[6]。还有研究者认为等带宽 的多通道压缩不满足人耳听觉特性, 于是采用基于 Bark 域分割多通道滤波器组频率间隔的方 法,以求满足人耳听觉特性[7]。 多通道压缩技术的使用,也带来了其他新的问题: 由于滤波器组设计问题,常常发生交叠区的增益大于非交叠区的增益,或者交叠区的增 益与两邻近频段的增益不同,这就导致在交叠区人为的制造波峰或者使波谷消失,从而使语 音失真。另外如果共振峰正好位于频段的交叠处,由于两相邻的频段增益不同,共振峰位置 发生偏移、变形,这同样影响了语谱的共振峰结构,造成语音可懂度下降。13 南京邮电大学硕士研究生学位论文第三章数字助听器中的基础算法3.2 声反馈消除算法由于助听器耳机和耳道之间的缝隙,助听器的机械构造等问题,会导致耳机发出的声音 泄漏给麦克风,造成一个正反馈循环,最终导致输出信号发生高强度循环振荡,即使用中的 啸叫现象。国外报告显示,约 24%的助听器佩戴者认为助听器的反馈严重影响助听器正常使 用。随着助听器设计体积越来越小,麦克风与耳机间的距离,也会增加反馈发生的发生概率。 尤其当使用者听力损失较为严重时,调大声音的增益,这也恰恰意味着反馈发生的概率增大。 因此反馈消除算法被引入到助听器算法中来。目前反馈消除主要有三种方法: 1. 移相法:破坏反馈啸叫发生的条件:开环增益不小于 1,且相位延迟为 360 度的倍数。所 以文献[8]提出将相位延迟控制为 180 度,使系统保持负反馈。 2. 陷波法:当系统计算发生延迟,反馈信号相位随频率变化很大,相位函数在不同频率点 角度不同,有些频率点为 360 度的倍数,所以把反馈消除的思想重点转到使开环增益小 于 1。通过设定阈值[9],利用陷波滤波器对超出阈值的波峰进行滤波。但是这种方法要实 时的跟踪波峰,且容易破坏语音的谱结构。 3. 自适应滤波法。目前较为流行的方法是自适应反馈消除法。如图 3-4 所示。通过 FIR 滤波 器估计回声路径,进而估计得到其反馈信号,并在输入端将反馈信号减去。自适应滤波 器算法的优点在于,能够快速的跟踪声反馈路径的变化,实时调整滤波器系数,达到消 除反馈声的目的。自适应反馈消除中最为关键问题就是对回声路径的准确估计。起初应 用于声反馈消除的算法有 LMS[10]、NLMS,通过不断迭代使最小均方误差达到最小来实 现估计。近年,研究者对 LMS 算法的改进主要致力于加快其收敛速度[11][12]。图 3-4 自适应反馈消除算法原理14 南京邮电大学硕士研究生学位论文第三章数字助听器中的基础算法另外一些投影算法[13][14]也被用来与自适应反馈抑制。比如仿射投影(Affine Projection,AP)算法、凸集投影(Projection of Onto Convex Sets,POCS)算法等都被用于自适应反馈抑 制。投影算法在收敛性能上有不同程度的提高,但是这两个算法的投影算子却难以定义。近 来提出自适应次梯度投影(Adaptive Projection Subgradient Method,APSM)算法[14]和自适应 并行次梯度投影(Parallel Subgradient Projection,PSP)算法[15]引入数字助听器,以减少算法 的计算量。相比于 LMS 和 NLMS 等算法,投影算法能够改善经典 LMS 等算法的收敛性能, 减小算法的计算量。3.3 语音增强算法语音增强并不是很新的技术,早在应用于助听器之前,许多领域都有要求有降噪技术的 应用,如通信、机械等领域。相同的听力环境下,听障患者需要比正常人 4 倍的信噪比才能 达到与正常人相同的言语理解能力。在助听器领域中,如何使助听器在噪声环境中得到较为 纯净的目标语音,从而帮助助听器使用者获得更高的语音信噪比,一直以来被所有听力学临 床工作者和助听器使用者所关注。3.3.1 单麦克风语音增强算法早期的助听器都是采用一个全向麦克风获取使用者周围的声音信息,这时语音和噪声同 时存在于一个通道中,对噪声的获得没有参照数据,比较适合噪声平稳的情况。现有的单麦 克风语音增强算法大致有:利用语音准周期特性进行语音增强,如梳状滤波器法,仅仅允许 基频和倍频处语音成分通过,而其他频率域的噪声则进行弱化处理,达到语音增强的效果; 使用小波分解语音,得到各级小波系数,语音成分的小波系数绝对值较大,而噪声成分的小 波系数较小,那么通过设置阈值,对小波系数进行判断,分化出语音和噪声,保留判断为语 音的小波系数,衰减判断为噪声的小波系数,以此来抑制噪声;基于模型的语音增强,比较 经典的是卡尔曼滤波和隐马尔可夫模型法,利用样本数据,依据最大似然或最小均方误差等 准则对模型参数进行估计,得到模型后从样本中估计得到目标语音信号;基于短时谱估计的 语音增强,这类方法首先需要对信号谱进行估计,利用估计出的语音统计特性对带噪信号进 行处理,得到增强语音的的效果;此外,根据人耳具有的听觉掩蔽效应,可以借助人耳的听 觉生理特性来抑制噪声,使人耳能够掩蔽掉噪声而无需将带噪信号中的噪声全部消除,避免 增强后语音的畸变。目前常用于助听器中的语音增强算法有: 1. 谱减法 谱减法[16]是利用语音短时稳定,在字与字或词与词之间存在间歇性的特点,依据噪声的 统计平稳且与语音不相关性质,对噪声和语音特性做出良好的估计,把间歇和停顿期提取到15 南京邮电大学硕士研究生学位论文第三章数字助听器中的基础算法的无语音的信号特征进行统计,并作为样本取代有语音期间噪声的频谱,在有含噪语音段时, 含噪语音的频谱减去估计出的噪声频谱,得到语音频谱的估计值,这是一种相减的方法。谱 减法有幅度谱相减、功率谱相减以及各种改进的方法。这种方法以运算量小、容易在 DSP 上 实现而成为数字助听器最常见的方法之一。谱减法原理图如图 3-5。y ( n) = s ( n) + n ( n)Y (k )aN (k )aqk? s ( n)b? S (k )1/ a图 3-5 谱减法原理图 图 3-5 是基本谱减法的一种改进形式,假设语音与噪声相互独立,那么求取 y(n)的功率谱为:* * Yk = S k + N k + S k N k + S k N k = S k + N k 2 2 2 2 2(3-1)同时有Yka= Skaa+ Nka(3-2)所以只需要得到噪声谱的估计 N k ,并在输入谱中将之减去,便可以得到目标语音的估 计谱:? S k = Yka- b Nka 1/a(3-3)设后验信噪比为 g k =Yk Nka a,这时对应的增益函数为1 1/ a ) gkGk = (1 - b(3-4)谱减法属于最大似然估计,并没有对语音频谱进行分析假设。这导致其有极大的缺点: 谱减法适用于高信噪比环境下,在信噪比较低时会对语音造成严重的损失,可懂度降低。同 时频谱相减会产生一种具有一定节奏感的残余噪声,称为“音乐噪声”“音乐噪声”产生的 。 原因是把用前几个样本非语音段的噪声数据应用于当前的非平稳噪声,这就不可避免的出现 降噪过多或过少的现象。所以学者们对谱减法的改进主要是改善对噪声谱的估计,只有对噪 声的估计越接近真实数据,才能越有效的减少“音乐噪声” 。 2. 维纳滤波器法 维纳滤波器法理论建立于语音、噪声都为平稳信号的基础之上。其设计方法建立于最小16 南京邮电大学硕士研究生学位论文第三章数字助听器中的基础算法均方误差准则,使滤波效果最优化。含噪语音信号通过维纳滤波器后,其中的噪声谱被减去, 再加上之前取得的含噪信号语音频谱相位,获得目标信号频谱。语音模型与谱减法相同,语 音与噪声相互统计独立。通过 Winer-Hopf 方程解得到维纳滤波器的频域表达式:Gk =Psk Psk + Pnk(3-5)其中 Psk 、 Pnk 分别为语音和噪声的功率谱。这些都可以用谱减法的方法得到,可以把维纳滤 波器法理解为谱减法的衍生。相对于谱减法而言,维纳滤波器法处理后的语音不再有音乐噪 声,而类似于白噪声,同时增大了算法复杂度,适合于平稳随机信号。现在维纳滤波器的用 法主要是用于经过谱减法处理后,再根据最小均方误差准则求出传递函数,从而设计维纳滤 波器,消除谱减法的音乐噪声。 3. 最小均方误差法 谱减法和维纳滤波器法没有对语音频谱分布进行假设,这样对频谱分量的幅度会造成一 定损伤,影响人的正常听觉。而最小均方误差法是基于维纳滤波器法发展起来的,同时考察 系统的每一个瞬态值,以瞬态值平方误差性能函数代替维纳滤波的均方误差性能函数。这种 算法能够减少非平稳噪声,同时也能减少处理过程中出现的残留噪声。但最小均方误差法需 要统计各种参数,增大了其运算量。 此外,除了考虑语音信号和噪声信号自身特点外,一些算法还分析了人耳对声音分析的 特性,如根据人耳的掩蔽效应,模拟人耳的 24 个 Bark 域,对信号进行消噪处理,使残留的 噪声能够被语音信号掩蔽而不至于被人耳察觉,没有必要把噪声全部消除,减少了消噪过程 造成的有用信号损失。3.3.2 多麦克风语音增强算法近年的一些研究将自适应滤波法引入到数字助听器中。通过使用两个麦克风,主麦克风 信号为带噪语音信号,参考麦克风作用是估计出噪声,通过调整参考通路的滤波器系数,使 参考麦克风中估计出的噪声趋近于主麦克风中的噪声。但参考麦克风要求尽量不含有目标语 音信号,而实际中助听器的麦克风位置都比较相近,因而使这种方法应用在助听器中出现困 难。 随着天线阵列算法的研究深入,阵列算法被引入到语音增强当中。形成了一系列基于麦 克风阵列的语音增强算法。麦克风阵列语音增强不仅继承了天线阵列的思想,同时也吸收了 单麦克风语音增强算法。麦克风阵列语音增强的相关内容将在第四章中详细讲述。17 南京邮电大学硕士研究生学位论文第三章数字助听器中的基础算法3.4 声源定位解决噪声问题的根本方法是实现噪声和语音的自动分离,尽管人们很早就开始了这方面 的研究,但是由于技术的难度,这方面的研究进展并不大。随着多麦克风的引入,有研究者 开始声源定位的研究,实现语音与噪声的分离,以实现语音增强。 早期关于声源定位的研究是基于两耳之间信号差异并进行分析,这包括耳间的声强差、 相移还有轮廓位移等信息分析获得声源位置信息。目前基于麦克风阵的声源定位技术主要可 分为:基于高分辨率谱估计的定位技术;基于最大输出功率的可控波束形成器(Steered Beamformer);基于声源到达时间差(Time Difference of Arrival, TDOA)的声源定位。 高分辨率谱估计法通过求解麦克风阵元信号间的相关矩阵求解方向角,包括 AR 模型法、 特征分解或子空间法[17]、最大熵法、最小方差估计法等。这类方法一般具有较高的定位精度, 适用于处理多信源情况,但这种方法需要通过时间平均来估计出各个麦克风阵元信号之间的 相关矩阵,需要满足信号平稳和估计参数固定不变的要求。语音信号是一个短时平稳过程, 不能满足这个条件。同时该方法要求信号源理想,各个麦克风具有相同特性,要减弱这方面 的影响需要以加大系统计算量为代价;此外,由于环境混响和反射等情况,目标信号源与噪 声存在相关性,这种情况会极大降低算法的有效性;高精度谱估计法主要针对于窄带信号, 而要处理语音这类宽带信号则需要增加系统的计算量。综合各方面原因,高精度谱估计算法 不适用于数字助听器中的声源定位。 基于最大输出功率的可控波束形成器通过将各个麦克风阵元采集到的语音信号分别进行 滤波,以最大输出功率为条件调整各路的权值,进行加权求和。当满足最大输出功率时,形 成波束,这样使麦克风阵指向了最大输出功率方向。这种方法属于最大似然估计方法,需要 得到目标声源和噪声源的先验知识,通常这种先验知识是无法获得的。而且由于最大似然估 计法是非线性的优化问题,在寻找全局最优点时,采用一般的搜索方法如梯度下降算法容易 陷入局部极小点。这类方法也需要极大的计算量,因此不适用于数字助听器进行实时信号处 理。 TDOA 声源定位法利用声音到达各个麦克风阵元的时间差来定位声源,计算量小,且硬 件实现容易,在实时处理中广为应用。 TDOA 声源定位法主要分为两部分内容,其中首要的是时延估计。时延,是指针对麦克 风阵列中不同麦克风阵元所接收到的同一声源信号由于到达信号到达阵元距离不同而产生了 一个时间上的差值。时延估计即是采用信号处理的理论方法对这个时间上的差值进行估计。 得到时延估计后,通过确定阵列的阵元几何分布计算声源的距离,方位角,运动速度与方向 等空间信息。整个定位过程中,时延估计最为重要。18 南京邮电大学硕士研究生学位论文第三章数字助听器中的基础算法时延估计的方法有许多种,比较流行的有广义互相关法(Generalized Cross Correlation, GCC)、互功率谱相位法( Cross-power Spectral Phase, CSP )、自适应滤波器法等。3.4.1 广义互相关法1976 年 Knapp 和 Carter 提出了广义互相关法[18]。这种方法的核心思想是不同麦克风阵元 信号之间的互相关函数最大值的相对位移对应着两路信号的相对时延。这种方法通过计算不 同麦克风阵元接收的语音信号之间的互功率谱,并进行加权运算来抑制噪声和反射,之后再 反变换到时域上,得到两路信号的互相关,互相关函数的最大峰值相对位置对应着信号之间 的相对时延。 仅考虑信号时域上的变化,设麦克风阵元接收信号表示为:xi (t ) = a i s (t - t i ) + ni (t ) i = 1,2,..., M(3-6)则其中两路信号的互相关函数为:Rij (t ) = E[ xi (t ) x j (t + t )] = Rss (t - t ij ) + Rsni (t - t ij ) + Rsni (t ) + RnI n j (t )假设信号源和环境噪声互不相关,则有(3-7)Rsni (t - t ij ) = Rsni (t ) = RnI n j (t ) = 0所以有Rij (t ) = Rss (t - t ij )(3-8)(3-9)由此可知,当 t = t ij 时,自相关函数有最大值,此时将 t ij 作为时延的估计值。 但是这种方法以声源信号与干扰信号互不相关作为前提,当有环境混响和反射等情况存 在时,就会造成时延估计的误差。广义互相关法改进了基本互相关法在这方面的弱点,将互 相关函数变化为频域表示,并引入加权函数,增强强度高的频率成分,锐化频谱峰值,再反 变换为时域表示,这样也锐化了自相关函数的峰值,如表 4-1 为各种加权函数。虽然这种做 法一定程度的改善了时延估计误差的问题,但是依旧无法避免相关噪声的影响,尤其在强噪 声环境和强混响环境的情况下,这类算法的性能急剧降低。互功率谱相位法首先将信号进行 白化处理,一定程度上有了抗混响的能力。 表 4-1 广义互相关法的加权函数 基本互相关法 Roth 处理器 平滑相干变换(SCOT)y 12 (w ) = 1y 12 (w ) =1 G11 (w )y 12 (w ) =1 G11 (w )G22 (w )19 南京邮电大学硕士研究生学位论文第三章数字助听器中的基础算法互功率谱相位(CSP)y 12 (w ) =y 12 (w ) =1 G12 (w )Gss (w )Eckart 加权Gn1n1 (w )Gn2 n2 (w )最大似然加权(ML)y 12 (w ) =g (w )2 2G12 (w ) (1 - g (w ) )G12 (w ) G11 (w )G22 (w )HB 加权y 12 (w ) =WP 加权y 12 (w ) =G12 (w )2G11 (w )G22 (w )3.4.2 互功率谱相位法信号相关函数与功率谱密度函数呈傅立叶变换对,那么相关函数在时域上表示的延迟由 傅立叶变化转化为功率谱的相移。最后得到的这个相移则可用作时延的相对估计值[19]。假设 信号与噪声之间互不相关,则两麦克风阵元信号之间的互功率谱为:Pij (w ) = X i (w ) X * (w ) = a i a j S (w ) S * (w )e j- jw (t i -t j )(3-10)因此,互功率谱相位法可以说是广义互相关法中的一种具体化方法[20]。在广义互相关法 中加权函数为y ij (w ) =1 Pxi x j (w )时,这种方法相当于互功率谱相位法。不同的是,互功率谱相位法在频域上的相移得到时延信息,而广义互相关法是在时域上通过相关函数得到。互功率 谱相位法在弱相关噪声和混响的环境中具有较好的性能。但是和广义互相关法相同,在强混 响环境中的性能会急剧下降,造成时延估计错误。3.4.3 自适应滤波器法用于进行时延估计的自适应滤波器法主要采用最小均方 LMS 法[21][22]。 这种方法考虑两条 输入信号,其中一路信号作为目标信号,另一路信号作为参考信号。参考信号经过自适应滤 波器调整自身滤波器权数来逼近目标信号,当参考信号与目标信号之间的均方误差达到最小 时,完成了自适应滤波过程。这是的滤波器权重最大值所在位置即为两路信号之间的相对时 延。如下图所示:20 南京邮电大学硕士研究生学位论文第三章数字助听器中的基础算法xi (t )Z-pe(n)x j (t )h(n)y (t )t ij图 LMS 自适应滤波器法时延估计原理图 为了保证系统的因果性,首先对目标信号进行 p 个采样点的延时,p 的取值一般为滤波器 权系数个数的一半,这样保证了系统能够处理正时延和负时延两种情况。能够检测的范围为 (-p,…, 2M-p)个采样点,其中滤波器权系数个数为 2M+1。 当参考信号去逼近目标信号时,LMS 算法结构如下:e(t ) = xi (t - p ) - y (t ) y (t ) =2M - p m= - p(3-11) (3-12) (3-13)?hm(t ) x j (t - m)hm (t + 1) = hm (t ) + m e(t ) x j (t - m) m = - p,...,2 M - p根据 LMS 准则可以得到,当滤波器系数满足h = R -1 Rij jj(3-14)其中 R jj 为参考信号自相关矩阵, Rij 为参考信号与目标信号的互相关矩阵。这时,目标信号 与参考信号之间的均方误差最小。此时的滤波器系数收敛,并且其中最大值对应的位置的偏 移量减去 p 值,就是目标信号与参考信号之间的相对时延。滤波器权系数的频域变换为:H (w ) = Pxi x j Px j x j(3-15)1 ,但是 LMS Px j x j这样,LMS 自适应滤波器频域响应相当于广义互相关法中的权函数取法优于 GCC 法的地方在于自适应滤波通过最小均方误差准则,在收敛时确定估计的时延,对 功率谱和互功率谱估计更准确,能够处理时变信号,根据信号,但是相比于 GCC 法,LMS 自适应滤波器法的运算量远大于 GCC 法。 除了上述三种方法外,时延估计算法还有很多种,如线性回归法、希尔伯特变换法等, 本文在这不做一一介绍。在不同的环境场合,采用适应于环境的时延估计方法能够提高系统 的效率,这也是进行后续语音数字处理的前提。21 南京邮电大学硕士研究生学位论文第三章数字助听器中的基础算法盲源分离理论的研究初期就开始应用于声源定位。盲源分离在不知道源信号的任何信息 的情况下,将源信号从混合信号中分离出来。它没有采用时延估计算法,避免了时延估计算 法误差造成的定位误差和后期处理问题。盲源分离理论从语音的高阶累积量、二阶统计量等 信号的多样性出发实现语音的分离[23]。现在也有研究者使用盲源分离理论用于对高噪声环境 中的语音活动性检测等方面研究[24]。但是基于盲源分离理论的声源定位计算量较大,若减少 计算量则要以降低算法性能为代价,如何将其应用在实时性要求高的场合的相关研究还比较 少。现在盲源分离上的研究主要是考虑现实环境中声源与方向性噪声源基本上统计独立的情 况本子项目拟采用独立成分分析(independent component analysis, ICA)的方法解决目标语音的 分离问题。利用语音的高阶统计量的特性,将语音分辨出来,利用盲源分离处理后得到的语 音估计信号与源语音信号有一定相关性,而与其他干扰估计信号弱相关的特点,将语音估计 信号用于与接收的麦克风阵列信号进行时延对比,将语音估计信号作为参考量,最终得到声 源在麦克风阵元之间的时延。 随着声源定位算法的深入研究, 许多优秀的算法不断涌现。 2008 年, Rohdenburg T., Goetze S.,Hohmann V.,Kammeyer K.D.,Kollmeier B.等提出了一种适用于助听器的自转向双耳助 听器麦克风阵列[25],该系统在具有一定复杂性的传播环境下,接收低信噪比的声音信号仍有 较好的定位精度。基于粒子滤波的声源定位法有其独特的优越性,对任意分布的噪声都适用, 而且算法简单,易于实现。国内的研究刚刚起步,相对而言,国外的研究较早,已经有一些 较为系统的研究进展,有较完整的理论和体系[26],但将该算法应用到数字助听器中的相关研 究还比较少。声源定位算法的研究还有还具有很大的研究前景。3.5 移频算法助听器提高听障患者听力的主要手段是提高语音信号的幅度,提高各频率处的振幅,使 听障患者能够听到处理的语音。但是对于高频听力损失患者,这种手段无法解决问题。当患 者听力损失超过 70dB 时,高频听觉细胞已基本失去了其功能,即使放大了高频成分的振幅, 患者也无法感知到。因此仅仅提高声强对患者无法起到助听效果,此外还存在其他的原因, 使助听器的助听效果无法另高频损失严重的患者满意: ¨ 设备技术限制。助听器的增益效果在高频约 2KHz 以上的增益能力受限。这表现在助 听器的高频处的对输入信号增益能力不易超过 60dB,这样对于高频听力损失超过 60dB 的患者来说,无法得到其期望的声音补偿。 ¨ 听觉掩蔽效应。助听器在高频段的增益能力原本就受限,所以虽然对高频段的信号增 益很大,患者听到的声音其实还是很小,同时因为掩蔽特性,低频声对高频声产生了22 南京邮电大学硕士研究生学位论文第三章数字助听器中的基础算法掩蔽作用。第二章中我们知道,元音和浊辅音集中在低频部分且具有共振峰结构,能 量大且集中,而清辅音的成分主要在高频段部分,且对言语辨别有影响作用,因此在 信息交流中患者只能听见对方元音和浊辅音部分,而无法听到清辅音部分,即汉语中 表现为元音掩蔽辅音的情况,导致听障患者的言语辨识能力降低。国外研究也证明: 当听障者高频听力损失超过 60dB 时,助听器对患者已很难起到听力补偿的作用。 ¨ 虽然感音神经性耳聋患者能够通过助听器来补偿其听力, 但是其言语辨别能力依旧无 法比拟正常人, 相同的言语辨别能力下, 听障患者需要正常人 4 倍的信噪比才能达到。 这就要求了助听器具有较强的语音增强能力。 听障患者的听力损失在频域上并不是平均的,大部分听障患者的听力残余都集中在低频 部分,那么把高频部分的声音搬移到这部分低频区域中,则可以使患者听到高频处无法听到 的声音,这种做法称为移频压缩[27]。移频压缩通过将语音按比例在频域中压缩,保持频谱结 构的比例不变, 比如将频率段为 0~16kHz 按照压缩比例为 2 进行压缩, 变换到目标频域为 0~ 8kHz 中,这样保留了频域包络的形状,也保留了时域信号的基本特征。以此使听障患者利用 低频感知高频部分的声音。3.6 本章小结在本章节中主要介绍了数字助听器的五类重要算法:压缩技术、声反馈消除、语音增强、 声源定位和移频压缩等算法。本章节对上述五种算法从原理,算法结构上进行分析,研究各 种算法的优点和不足,探讨各类算法的研究现状和研究趋势。23 南京邮电大学硕士研究生学位论文第四章麦克风阵列语音增强算法第四章麦克风阵列语音增强算法语音信号是人类传播信息和感情交流的重要媒介。然而在信息交流的过程中,语音信号 不可避免的受到外界的干扰,如环境噪声、设备内部电噪声、其他说话人噪声等。这些干扰 导致接收到的语音信号不纯净,影响后期的语音处理。语音增强应用于此场景,它可以对带 噪语音信号进行处理以达到减少甚至消除噪声的效果。过去语音增强算法普遍采用单麦克风 方式,根据语音信号的统计特性,在时域或频域上分辨出语音和噪声的差异,以此来进行语 音增强。这种传统的语音增强方法,在理论上已经比较成熟,算法复杂度和硬件要求都比较 低,又有一定的抑制噪声的作用,在实际中广为应用。 但是,单麦克风只拾取一路语音信号,这路语音信号包含多个声源和环境噪声。语音信号 和噪声信号的时域和频域常常交叠在一起,而且考虑到声源的移动状态,还有室内存在的多 径反射和混响等因素,都会导致单麦克风接收到的信号质量下降,增大消噪的难度,最终造 成了对原始语音的伤害。如 3.3.1 节提到的谱减法[28],会产生音乐噪声,影响听觉的舒适度; 还有维纳法和 MMSE 法[29],都只适用于加性白噪声环境下的消噪。 麦克风阵列处理的引入提供了一条新的途径来进行语音增强。麦克风阵列不仅提供了信 号在时域和频域上的信息,还提供了一个空间域,对来自空间不同方向的信号进行空时频联 合处理,它以天线阵列的算法为理论依据,结合单通道语音处理的方法,用空间滤波器的方 式,提供声源信号空间位置,达到滤取声源信号的同时抑制干扰信号的目的。这样,麦克风 阵列相当于一个高性能的指向性单麦克风系统,同时拥有较为显著的噪声抑制能力。另外, 麦克风阵列优于指向性单麦克风,它不需要随声源一起运动,当声源发生位移时,麦克风阵 列根据时延估计得到声源的空间信息,自适应的调整空间滤波器结构,实现声源方向的自适 应指向,而不需要人为的调整。因此,麦克风阵列可以广泛应用于各种干扰的环境,如室外, 会场等,基于麦克风阵列的语音增强算法成为语音信号处理领域的一个新的发展方向。4.1 麦克风阵列处理4.1.1 阵列信号多个麦克风在空间的位置通常是根据应用需求和使用环境设计的,可以排列在一条直线 上,也可以排列在二维平面或三维面上;可以是均匀排列,也可以非均匀排列。按照排列的 形式,可以分为线性阵列、二维阵列和三维阵列。阵列中的麦克风称为阵元,选择作为参考 点的某一麦克风称为参考阵元。声源通过空气传播并被麦克风阵列采集。如果声源离阵元距24 南京邮电大学硕士研究生学位论文第四章[30]麦克风阵列语音增强算法离较近,则为近场环境;如果远离阵列,成为远场环境。如图 4-1 所示,对于均匀直线阵列,设 L 为阵列间距, f s 为采样频率, lmin 为对应频率上限的波长,声源到阵列中心的距离 为 r,当 r & 2 L2 / l min 时,则为远场环境;反之为近场环境。对于远场环境,声源到达麦克风 阵列的波形为平面波,接收到的信号的时延差与阵元间隔呈线性关系;而对于近场环境,声 源到达麦克风阵列为球面波,收到的信号的时延呈非线性关系,与阵列分布和声源距离有关, 在后续处理过程中要考虑差异的影响。图 4-1声音传播图如图 4-2 给出了一个二元阵列接收远场信号的模拟图, 其中右侧阵元为参考阵元, 两阵元 间距为 d,声源入射方向与阵列法线方向夹角为 q , q ? [-90 o ,90 o ] 。如图所示,第二阵元比到 达参考阵元有延迟,设延迟时间为 t,则有t= d sin q v(4-1)其中 v 为声音传播速度,在空气中的传播速度为 340m/s。dsinqq图 4-2 二元阵列接收远场信号模拟图 当阵元间距为 d 时所导致的时间采样间隔为 t,当满足式 4-2 时可以认为两路采样得到的 信号无区别:1 v ? 2 f0 ? ? 2 f0 t d sin q25(4-2) 南京邮电大学硕士研究生学位论文第四章麦克风阵列语音增强算法要满足式(4-2)的成立,必须满足v ? 2 f 0 ,因此有 d v 2v 1 ? ?d? l d l 2(4-3)本文的仿真采用 16KHz 的采样频率, d ?v 340m / s = ? 0.022m ,时相邻信号之间无区 2 f 2 ? 8kHz别,无法进行时延估计,所以应使 L&0.022m,L 不宜太大,否则也会导致时延估计的错误。 一般选取在 0.1m 左右,由 r & 2 L2 / l min 可知, r & 0.94m 时,可将环境视为远场环境。4.1.2 阵列信号模型考虑 N 元等距麦克风阵列,阵元间距为 d,且各麦克风均为各向同性阵元。远场处有声 源和 P 个干扰以平面波入射,到达角度分别为 q 0 和 q k (k = 1,2..., P) , 阵列接收到的数据为X (t ) = AS (t ) + n(t )(4-4)其中 X (t ) 为 N ? 1 阵列数据向量, S (t ) 为信号复包络向量,n(t ) 为 N ? 1 阵列噪声向量, A 为阵 列矩阵,X (t ) = [ x1 (t ), x 2 (t ),..., x N (t )]T n(t ) = [n1 (t ), n 2 (t ),..., n N (t )]T S (t ) = [ s 0 (t ), s1 (t ), L , s P (t )]T(4-5) (4-6) (4-7) (4-8)A = [a (q 0 ), a (q1 ),L , a (q P )] []T 表示矩阵转置, s k (t ) 为第 k 个信源的复包络。a (q k ) = [1, e jb k , L , e j ( N -1) b k ]T , (k = 0,1, L , P ) 为第 k 个信源的导向矢量,并且有2p d sin q k (4-9) l 在许多应用中,如一对一交谈等场景,人们往往只对来自某一方向的声音感兴趣,要求bk =在有利于期望信号接收的同时尽可能抑制来自其他方向上的信号和噪声。波束形成器就是能 够实现这个目的的一种技术,它通过对麦克风阵列输出进行加权处理完成上述特定方向信号 的接收,从本质上讲,波束形成器是一种空间滤波器。4.1.3 阵列方向图26 南京邮电大学硕士研究生学位论文第四章麦克风阵列语音增强算法阵列输出加权和的绝对值与来波方向之间的关系称为阵列方向图。在由 M 个全向麦克风 组成的阵元距离为 d 的均匀线性阵列中,设期望信号 s d (t ) 的入射方向角为 q ,那么第 m 个阵 元相对于参考点阵元的时延为tm =(m - 1)d sin q v(4-10)忽略噪声的条件下,第 m 个阵元的信号基带复包络为x m (t ) = s d (t )e- j 2pd ( m -1) sin q l= s d (t )e - jb ( m -1)(4-11)可以得到,阵列响应为F (q ) = W H a (q )W = [ w1 , w2 , L , w N ]T(4-12) (4-13)]a (q ) = [1, ej2p d sin q l,L, ej2p ( N -1) d sin q T l(4-14)在这里,各阵元均为全向同性阵元,且取左边第一个阵元为参考阵元。对(4-12)取模的平方并 进行归一化,然后取对数,得到方向图增益为G (q ) = F (q )2 2max F (q )(4-15) (4-16)G (q )(dB ) = 10 log G (q )在等距均匀线阵中,个阵元均匀加权,权矢量为W = [1,1, L ,1]T(4-17)则,方向图增益为1 G (q ) = 2 N?ek =1Nj2 2p ( k -1) d sin q lsin(pdN sin q / l ) = N sin(pd sin q / l )2(4-18)如图 4-3 为对应 8 元和 16 元均匀线阵的功率增益方向图:27 南京邮电大学硕士研究生学位论文第四章麦克风阵列语音增强算法图 4-3 八元均匀阵列功率增益方向图 如图所示,方向图在 0°方向有最高增益,在其他方向存在多个旁瓣。主瓣宽度一般为最 大增益下降 3dB 处,主瓣宽度决定了阵列的分辨率,主瓣越窄,分辨率越高,反之则越低。 图中显示,当阵列数量增加时,阵列的分辨率有显著提高。阵元数量越多,有助于提高阵列 的分辨率,有利于将空间来向较接近的目标和干扰分开。4.2 固定波束形成算法4.1.1 节中,所描述的均匀加权只能在阵列法线方向上得到主波束,方向固定。但实际应 用中,目标声源并不总是在阵列法线方向上的。这时考虑相控阵的思想[31],控制各个阵元的 相位补偿来改变各阵元信号加权进行相位补偿,使主波束指向期望的信号方向。 当期望信号方向为 q 0 ,且阵列接收信号只包含期望信号和噪声时,阵列接收信号向量可 以写为X (t ) = a (q 0 ) s 0 (t ) + n(t )(4-19)a (q 0 ) 为期望信号的导向矢量, s0 (t ) 为期望信号的复包络, n(t ) 为噪声向量,为了使阵列对方向为 q 0 的期望信号同相相加,阵列权矢量应使相加前的各阵元信号相位相同,合适的阵列权 矢量即为期望信号导向矢量即W = a (q 0 )28(4-20) 南京邮电大学硕士研究生学位论文第四章麦克风阵列语音增强算法阵列权矢量使阵列输出在对应角度方向的信号增益最大, 4-20 式代入式 4-15, 将 得到指向 q 0 方向的方向图增益为:1 G (q ) = 2 N?ek =1Nj2 2p ( k -1) d (sin q - sin q 0 ) lsin(pdN (sin q - sin q 0 ) / l ) = N sin(pd (sin q - sin q 0 ) / l )2(4-21)如图 4-4 为 16 元直线均匀麦克风阵在波束指向 q 0 =20°, 阵间间距为 d =l 时的方向图。 2图 4-4 十六元均匀阵列在指向 20°的方向图 这就是空间匹配滤波器又称为常规波束形成(CBF)的基本原理。通过对阵元加权进行相位 补偿,使主波束指向期望信号的方向。这类方法在噪声干扰比较分散的情况下,有良好的语 音消噪效果。目前,基于常规波束形成算法的波束形成算法主要有三种,按照处理效果由次 及好、算法复杂度从简到繁的顺序依次为:延时相加型(Delay&Sum)波束形成算法、过导引 型(Owersteeted)波束形成算法、超方向型(Superdirective)波束形成算法,这三种方法都是采用 加权滤波器的方式,将滤波后的结果相加的到最后的输出,如图 4-5。29 南京邮电大学硕士研究生学位论文第四章麦克风阵列语音增强算法w1y1w2w3y2ty3w4y4图 4-5 固定波束形成算法 三种算法基于文献[32],对权重滤波器的设计方案根据文献提供的公式,从频域的角度考虑,W (k ) = R -1 (k )a (q k ) , 其中 R(k)为频率点 k 处的 M ? M 维的噪声相关矩阵,M 为麦克 a H (q k ) R -1 (k )a (q k )风个数, [] H 表示矩阵转置共轭, []-1 表示矩阵的逆, a (q k ) 为为频率点 k 处的 M ? 1 维导向矢 量(steering vector) ,表示其他阵元接收的目标信号相对于参考阵元接收的目标信号的相对相 移。这个相对相移取决于声源的方位,阵列的排布,阵元间的间距等有关。输出信号在频率 点 k 处的频谱系数 Z (k ) 为Z (k ) =M -1 i =0?W*i(k )Yi (k )(4-22)其中*表示取共轭,所以权重滤波器设计关键在于导向矢量 a (q k ) 以及噪声相关矩阵 R (k ) 的计 算。 固定波束形成(FBF)方法中最具代表的是延迟求和波束形成方法。这种方法假设噪声源为 各个麦克风自身的噪声,而不是环境噪声。各个麦克风的噪声信号统计独立,所以噪声相关 矩阵为单位阵。因此W (k ) = a (q k ) M(4-23)经过这样的波束形成算法处理,最终输出信号利用时延估计得到的时延,对麦克风采集 到的信号相同时刻对应点进行对齐,然后叠加。而其他方位的噪声经过这样的时延对齐后, 各个通道相对应时刻的对应点错隔开来,这样的处理方式降低了噪声干扰之间的相关性的同 时,增强了各麦克风接收到的目标信号之间的相关性。通过叠加以后,噪声得到了一定的抑 制。最后的输出信号是对叠加后的信号求取平均值,这种方法有利于去除非相关性噪声,而 对于相关性噪声,起到的效果并不强。尤其在麦克风个数有限的情况下,这种波束形成算法 的整体消噪效果并不突出,没有考虑到环境噪声和干扰源的影响,而且十分依赖于时延估计30 南京邮电大学硕士研究生学位论文第四章麦克风阵列语音增强算法的准确性。在有环境噪声和干扰源的情况下,固定波束形成算法的语音增强效果并不明显。 如图 4-6 所示,为固定波束形成算法中延时求和波束形成算法的原理图。x1 (t )t1t2a1a2?y (t )x2 (t )xM (t )tMaM图 4-6 延时求和波束形成过导引型波束形成算法与固定波束形成算法的理论基础相同,在不考虑环境噪声和干扰 源的影响,认为噪声相关矩阵为单位阵,所以 W (k ) =a (q k ) 。但是过导引型波束形成算法计 M算 a (q k ) 时,只在高频段约 5kHz 后, a (q k ) 中的时延与实际真实时延相等。而在低频时的信号 时延比各个阵元之间的实际时延更多,随着频率的增加,时延量逐步接近真实时延。通过调 整 a (q k ) 使算法对低频段的噪声抑制能力增强。 但是这种方法依旧没有考虑环境噪声和干扰源 的影响。所以在有环境噪声和干扰源的情况下,语音增强的效果也并不明显。在性能上,与 延迟相加波束形成算法类同。 超方向型波束形成算法则考虑到环境噪声的影响。假设麦克风受到的干扰主要为环境噪 声,且呈球状等向分布。基于这种假设,估计噪声相关矩阵来调整和计算权重滤波器系数, 使算法能够减弱除麦克风阵列对准方向之外的环境噪声,达到语音增强的效果。这种算法的 优点在于环境噪声的声源越多,方向越分散,波束形成的语音增强效果越好。但是算法的权 重滤波器系数不能够自适应的变化,当声源位置发生变化时,算法不能根据声源的位移变化 而更新滤波器系数,从而导致声源捕捉和增强失败,甚至还削弱了目标语音。4.3 自适应波束形成算法自适应波束形成算法相比于 CBF 算法有着巨大的优势:在声源位置发生变化时,能够实 时的根据时延估计得到的时延值,自适应调整滤波器系数,保证了捕捉声源的能力。另外, 改变了 CBF 方法中,零陷(方向增益图中的零点)固定的情况,自适应的应对干扰环境,在噪 声源方向上形成自适应零陷,滤除干扰方向的声音信息,达到抑制环境噪声和干扰源的效果, 实现语音增强。31 南京邮电大学硕士研究生学位论文第四章麦克风阵列语音增强算法4.3.1 最小方差无失真响应(MVDR)波束形成器设麦克风阵列是 N+1 元等距直线阵,阵元间距为 d,各个麦克风都是各向同性的。期望信 号从远场以角度 q 0 入射,M 个干扰从远场以角度 q j ( j = 1,2,...M ) 入射,阵列接收数据可以表 示为X (k ) = AS (k ) + N (k ) = a(q 0 ) s 0 (k ) + ? a(q j ) s j (k ) + N (k )j =1M(4-24)其中 A = [a (q 0 ), a (q1 ),L, a (q M )] , a (q j ) = [1, e 矢量,并且有 b j =jb j,L, ejNb j T] , ( j = 0,1, L , M ) 为第 j 个信源的导向2p d sin q j , S (k ) = [ s 0 (k ), s1 (k ), L , s M (k )]T 为信号向量, lN (k ) = [n1 (k ), n

我要回帖

更多关于 屏幕超出工作频率范围 的文章

 

随机推荐