|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
基于凝聚信息瓶颈的音频事件聚类方法
8 f% E' L8 S- s5 K9 T( Y. H摘要:为了进一步提高音频事件聚类算法性能,本文基于凝聚信息瓶颈理论提出- -种音频事件聚类方法.首先,论述信息瓶颈原理及其推导过程;然后,详细论述一-种基于凝聚信息瓶颈的音频事件聚类方法,包括源变量、相关变量和目标变量的定义,聚类的具体步骤,算法主要计算量分析等.采用取自两个数据库的音频事件样本进行测试,实验结果表明:与目前文献报道的方法相比,本文方法在多种实验条件下都获得了更高的K值(平均类纯度和平均音频纯度的几何平均值) ,而且运算速度更快.
# \5 ~$ L. I) E- x* w! t+ W' U9 l# i' |0 \
关键词:凝聚信息瓶颈; 音频事件聚类;音频内容分析
$ |, Y' b9 s- d1 j5 b! K3 G: A, ?$ o9 {5 S+ b
1引言7 S: Z: Y3 ?' B/ l/ y+ y' l
随着多媒体技术的发展,记录有各种音频事件的音频文档(影视剧音轨、智能手机录制的音频等),正迅猛增长.如何有效检测、辨识音频文档中的各类音频事件,受到越来越多的关注".目前主要采用两种处理方法: (1)有监督识别;(2)无监督聚类.前者首先从各个音频事件中提取特征参数,再通过训练好的分类器,例如隐马尔科夫模型( Hidden Markov Model , HMM)、高斯混合模型(Gaussian Mixture Model , GMM)、支持向量机( Support Vector Machine, SVM)、深度神经网络( Deep Neural Network,DNN)等,将各音频样本辨识为预先定义的类别.后者首先提取特征参数,但无需事先训练分类器,而是采用某种聚类算法将相同类别的音频段合并在一起,并分配-一个标签给各类别.# M7 x' `0 Y5 F8 D- g
目前监督式识别音频事件的研究报道比较多.这些方法所采用的特征基本相同,例如梅尔频率倒谱系数( Mel-Frequency Cepstral Coefficients, MFCC)、 感知线性预测( Perceptual Linear Prediction) 、过零率( Zero Crossing Rate)、基频( Pitch)等,或者上述特征的组合.它们的差异主要是采用不同分类器.采用DNN作为分类器的有lan McLoughlin'[2]、Oguzhan[3]等人提出的方- y( O" n8 Q; R
! B2 \. W& P8 \; Z3 t7 E g0 ?
) |9 Q* K5 H; x6 ?" i: Q Y5 I9 R' d% ?5 f7 h" |" D* ]; c. g
" q2 d2 b! w* D' }! n
|
|