TA的每日心情 | 开心 2020-7-31 15:46 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
摘 要: 在线社交网络文本流中的热点短语能反映文本流中隐含的热点话题和突发事件. 本文提出了一种无需
: H/ v+ P! U+ O, d# g0 J分词并能支持多种热度度量函数的热点短语挖掘技术. 首先用文本流的某个典型时段采样得到候选短语, 构建 AC* M/ H( M, A& o* j; g7 F# y5 Z+ x6 g
Trie 前缀树. 然后, 基于该前缀树, 单遍扫描后续的文本流, 将候选短语的历史出现频率记录在 Trie 相应节点上, 从而( K9 F9 Z0 B( r3 c0 O8 ^- E
支持多种基于历史频率的热度计算方法. 此外, 为及时发现新的热点短语并减少 ACTrie 的构建次数, 本文通过分析
8 O3 v5 }0 d# e* F+ h, `8 [Trie 树各节点上的遗漏短语频率, 动态确定候选短语的更新时机. 新浪微博数据集上的实验验证了本文方法的有效性
3 n( k6 t8 }! s1 x( d) m+ D( 准确率达 89% ) 和高效性( 时空开销仅为基准算法的 2% ) .
! C" R8 a8 I! g0 A- [8 J( L6 U关键词: 文本流; 热点短语; ACTrie; 文本挖掘; 在线社交网络 ( ]% ?: y8 g1 R6 T% M
: ~' K$ D) m$ e4 T, z- r. C
基于AC-Trie的在线社交网络文本流热点要素抽取.pdf
(1.7 MB, 下载次数: 0)
^* c V; Z+ i3 \* x( L6 |5 q8 M$ L
|
|