TA的每日心情 | 奋斗 2020-9-8 15:12 |
---|
签到天数: 2 天 [LV.1]初来乍到
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
摘 要: 中文分词结果对中英命名实体识别及对齐有着直接的影响,本文提出了一种命名实体识别及对齐中的 中文分词优化方法.该方法利用实体词汇的对齐信息,首先修正命名实体识别结果,然后根据实体对齐结果调整分词 粒度、修正错误分词.分词优化后的结果使得双语命名实体尽可能多地实现一一对应,进而提高中英命名实体翻译抽 取和统计机器翻译的效果.实验结果表明了本文优化方法的有效性. & k0 E T) ^. ]: y n, f
5 T$ K) V J# L! h' w f5 @+ w关键词: 分词;命名实体识别;双语对齐;机器翻译7 ?6 B1 K- @9 q5 D4 ~8 L7 L9 @. L2 b
: ?" z8 |0 D3 b5 a0 c$ I
$ o9 y2 N, r3 H5 H0 [, @+ |6 Y: V4 y8 v" C C7 P
在自然语言中,命名实体(人名、地名、组织机构名 等)传递着重要信息,命名实体的识别是自然语言处理 中的一项重要工作.对于跨语言的自然语言处理应用而 言,除了命名实体的识别,命名实体的翻译对于提升机 器翻译质量、跨语言信息检索效果等也有着重要的作 用.命名实体随着时代变化,层出不穷,因此,大多数的 命名实体都属于词典的未登录词(OutofVocabulary, OOV),这为命名实体识别和翻译带来了困难.很多研究 都试图借助于双语平行语料来提升命名实体的识别和 翻译效果.2 I9 L D1 A* b4 ]7 ?
& b& B- U$ N. l, P! T5 o
2 J( |* k' @$ s) j# o附件下载:
, |9 v J, _! f6 u5 a) I* ~$ K |
|