|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
摘要:相比于传统的基于半监督学习的指代消解方法, Laplacian SVM( Support Vector Machine)能有效的挖掘已标注样本和未标注样本的相似性和关联性,更好的推导模型的分类边界.而传统Laplacian SVM采用欧式距离度量样本之间的距离,使得异类样本之间的相似性可能过大,不利于样本的准确分类.对此,提出一种基于数据驱动学习最优测度Laplaciam SVM算法以解决中文指代消解语料不足的问题.该方法通过优化样本对之间的相似性约束条件和引人Fisher判别项,增大同类样本间的相似性,并突出强判别能力的特征.此外,提出核嵌入的测度优化方法将以上线性测度优化推广到非线性空间,有利于Laplacian SVM利用核函数实现非线性分类.在ACE2005中文语料库上的测评结果表明,所提出测度优化的Laplacian SVM(包括线性和核嵌入两种形式)的方法只需少量标注样本就可以获得与经典的有监督学习模型相当甚至更好的消解性能,同时也优于其他传统的半监督学习方法.# a4 J4 B6 E: n; h6 c$ V
关键词:测度优化;Laplacian SVM;中文指代消解;半监督学习;自然语言处理
* l2 c2 K) E) Y4 J! L' k; Z
基于测度优化Laplacian SVM的中文指代消解方法.pdf
(860.49 KB, 下载次数: 0)
3 L U* x% V; T. W5 D( M7 Y$ p1 C7 L- B! V; E1 C N: ^5 D
|
|