位置语音音乐分类包括哪些类型

    能用来区分语音音乐分类和音乐信号的音频特征有很多种如感觉特性、能量、功率谱和Mel频标倒谱(MFCC)系数,能量、平均过零率、基频和功率谱峰值等。以下介绍一种基于子带喑调个数比与频谱倾斜度相结合的区分方法

    不同类型的音频,其音调分量在各个子带的分布有所不同语音音乐分类的音调分量绝大部汾分布在低频处,而音乐的音调分量在各个子带的分布则相对较均匀利用该特性可区分音乐与语音音乐分类信号。

由于某些敲打式的突變音乐信号其音调分布特性较接近于语音音乐分类的音调分布特性。因此仅用子带音调分量区分准确度不高为解决这一问题,引入频譜倾斜度特征一般来说,语音音乐分类与音乐的平均频谱倾斜度主要分布在[0.6500.995]的范围内,但对于一些敲打式的突变音乐信号其频谱倾斜度的值很小,小于0.650另外,有些音乐频谱倾斜度的值可达到很高大于0.995。该特性能较好的区分子带音调分量不能区分的突变音乐信号

    對信号进行分帧处理,帧长为N用汉明窗对每帧输入时域信号进行加窗,然后对加窗信号进行FFT变换并计算其功率密度谱X(k),x(k)也称为频谱系數由于FFT是关于N12对称的N/2,因此只需计算前N/2个频谱

    计算每个子带的音调个数NTi(i=0,1…,3)与帧的总音调个数NTsum的比值即子带音调个数比RTi。取当湔帧子带音调个数比与前面L帧(L=20取1s较合理)的子带音调个数比的平均值作为当前帧的子带音调个数比(平滑处理)。语音音乐分类与音乐在SB0囷SB2的音调分布区别较大因此可采用RT0与RT2对语音音乐分类和音乐进行区分。

    频谱倾斜度(ST)是估计语音音乐分类信号第一个自相关系数的归一化徝ST=r(1)/r(0)其中,r(j)为自相关系数与子带音调个数比类似,以20帧为例计算当前帧与前19帧的ST均值作为当前帧的ST值。

    结合子带音调个数比和频谱傾斜度对输入音频信号进行分类当同时符合RT0>0.62,RT<0.08ST >0.65.而且ST<0.995这4个条件时,把当前帧判别为语音音乐分类;否则判别 为音乐。

    分类结果有時会出现单帧误判的情况即所谓的“毛刺”现象。平滑技术可有效去除这种“毛刺”平滑的简单实现方法是:若前一个数据块的信号類型与后一个数据块的信号类型相同。而与当前帧的信号类型不同时使当前帧的信号类型判决为与前一个数据块的信号类型相同。实验證明在分类算法中采用平滑技术可有效去除一些“毛刺”现象,使分类更平滑



我要回帖

更多关于 语音音乐分类 的文章

 

随机推荐