找回密码
 注册
关于网站域名变更的通知
查看: 709|回复: 1
打印 上一主题 下一主题

[毕业设计] 基于凝聚信息瓶颈的音频事件聚类方法

[复制链接]

该用户从未签到

跳转到指定楼层
1#
发表于 2021-5-10 18:18 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

EDA365欢迎您登录!

您需要 登录 才可以下载或查看,没有帐号?注册

x
基于凝聚信息瓶颈的音频事件聚类方法

8 f% E' L8 S- s5 K9 T( Y. H摘要:为了进一步提高音频事件聚类算法性能,本文基于凝聚信息瓶颈理论提出- -种音频事件聚类方法.首先,论述信息瓶颈原理及其推导过程;然后,详细论述一-种基于凝聚信息瓶颈的音频事件聚类方法,包括源变量、相关变量和目标变量的定义,聚类的具体步骤,算法主要计算量分析等.采用取自两个数据库的音频事件样本进行测试,实验结果表明:与目前文献报道的方法相比,本文方法在多种实验条件下都获得了更高的K值(平均类纯度和平均音频纯度的几何平均值) ,而且运算速度更快.
# \5 ~$ L. I) E- x* w! t+ W' U9 l# i' |0 \
关键词:凝聚信息瓶颈; 音频事件聚类;音频内容分析
$ |, Y' b9 s- d1 j5 b! K3 G: A, ?$ o9 {5 S+ b
1引言7 S: Z: Y3 ?' B/ l/ y+ y' l
随着多媒体技术的发展,记录有各种音频事件的音频文档(影视剧音轨、智能手机录制的音频等),正迅猛增长.如何有效检测、辨识音频文档中的各类音频事件,受到越来越多的关注".目前主要采用两种处理方法: (1)有监督识别;(2)无监督聚类.前者首先从各个音频事件中提取特征参数,再通过训练好的分类器,例如隐马尔科夫模型( Hidden Markov Model , HMM)、高斯混合模型(Gaussian Mixture Model , GMM)、支持向量机( Support Vector Machine, SVM)、深度神经网络( Deep Neural Network,DNN)等,将各音频样本辨识为预先定义的类别.后者首先提取特征参数,但无需事先训练分类器,而是采用某种聚类算法将相同类别的音频段合并在一起,并分配-一个标签给各类别.# M7 x' `0 Y5 F8 D- g
目前监督式识别音频事件的研究报道比较多.这些方法所采用的特征基本相同,例如梅尔频率倒谱系数( Mel-Frequency Cepstral Coefficients, MFCC)、 感知线性预测( Perceptual Linear Prediction) 、过零率( Zero Crossing Rate)、基频( Pitch)等,或者上述特征的组合.它们的差异主要是采用不同分类器.采用DNN作为分类器的有lan McLoughlin'[2]、Oguzhan[3]等人提出的方- y( O" n8 Q; R

! B2 \. W& P8 \; Z3 t7 E  g0 ?
游客,如果您要查看本帖隐藏内容请回复

) |9 Q* K5 H; x6 ?" i: Q  Y5 I9 R' d% ?5 f7 h" |" D* ]; c. g
" q2 d2 b! w* D' }! n
  • TA的每日心情

    2019-11-29 15:37
  • 签到天数: 1 天

    [LV.1]初来乍到

    2#
    发表于 2021-5-10 19:01 | 只看该作者
    基于凝聚信息瓶颈的音频事件聚类方法
    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    关闭

    推荐内容上一条 /1 下一条

    EDA365公众号

    关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

    GMT+8, 2025-7-23 03:40 , Processed in 0.109375 second(s), 26 queries , Gzip On.

    深圳市墨知创新科技有限公司

    地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

    快速回复 返回顶部 返回列表