TA的每日心情 | 奋斗 2020-9-8 15:12 |
---|
签到天数: 2 天 [LV.1]初来乍到
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
摘 要: 中文分词结果对中英命名实体识别及对齐有着直接的影响,本文提出了一种命名实体识别及对齐中的 中文分词优化方法.该方法利用实体词汇的对齐信息,首先修正命名实体识别结果,然后根据实体对齐结果调整分词 粒度、修正错误分词.分词优化后的结果使得双语命名实体尽可能多地实现一一对应,进而提高中英命名实体翻译抽 取和统计机器翻译的效果.实验结果表明了本文优化方法的有效性. . E- Q0 ?6 o# |+ E
- q& _3 K& H; b4 |4 H关键词: 分词;命名实体识别;双语对齐;机器翻译
6 n* R' N4 }2 m3 m2 r1 {: ^) {7 g; ~/ U% Q
1 X# n3 W+ S# L5 V
' n9 \- z8 A8 H+ |+ j% s
在自然语言中,命名实体(人名、地名、组织机构名 等)传递着重要信息,命名实体的识别是自然语言处理 中的一项重要工作.对于跨语言的自然语言处理应用而 言,除了命名实体的识别,命名实体的翻译对于提升机 器翻译质量、跨语言信息检索效果等也有着重要的作 用.命名实体随着时代变化,层出不穷,因此,大多数的 命名实体都属于词典的未登录词(OutofVocabulary, OOV),这为命名实体识别和翻译带来了困难.很多研究 都试图借助于双语平行语料来提升命名实体的识别和 翻译效果., C8 e. p" D0 F" Y0 `' B3 g( W& _- S
- L0 o9 s, P% ` M# X
; X% g" E- J B; B, H7 P附件下载:
! P+ `6 M/ h3 O! t. {7 S2 Q |
|