一种基于跨语言资源的柬语命名实体识别的方法技术

技术编号：17596957 阅读：86 留言：0更新日期：2018-03-31 10:10

本发明专利技术涉及一种基于跨语言资源的柬语命名实体识别的方法，属于自然语言处理技术的领域。本发明专利技术首先获取英柬双语平行文本语料及柬语单语文本语料；然后使用工具Word2vec对柬语单语文本进行处理得到柬语单词的向量表示；再通过余弦方法计算柬语单词之间的相似度值同时使用IBM模型实现柬英双语词之间的词对齐；运用双语图模型中的标签传播算法对柬英双语语料进行处理进而得到在该文本中的柬语单词的对应类别，再将其作为跨语言特征并且连同词性特征、标记特征，包括标记人名、地名的单词特征运用到机器学习模型进而实现对所获得语料进行实体命名识别。

A method of naming entity recognition from Cambodian language based on cross language resources

The present invention relates to a method of naming entity recognition based on cross language resources, which belongs to the field of Natural Language Processing technology. The present invention first obtains the English bilingual parallel corpus and Cambodia Cambodia language monolingual text corpus; and then use the Word2vec tool to Cambodia language monolingual text processing language word vectors Cambodia said again; while using IBM model to realize word alignment between English words by Cambodia Cambodia cosine method to calculate the similarity between words; use the corresponding category label propagation algorithm of bilingual graph model to process the bilingual corpus and Cambodia in the text of the Cambodian word, then as the cross linguistic features and POS features, together with marked features, including tag names word features applied to machine learning model and thus achieve the entity of the corpus name recognition.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于跨语言资源的柬语命名实体识别的方法
本专利技术涉及一种基于跨语言资源的柬语命名实体识别的方法，属于自然语言处理技术的领域。
技术介绍
命名实体识别的主要任务是识别出文本中的人名、地名、机构组织名等专有名称。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。从语言分析的全过程来看，命名实体识别属于词法分析中未登录词识别的范畴。柬埔寨语命名实体构造特点与汉语有类似的地方，除了极少量缩略词外，其余命名实体的外形与其他单词无区别，但仍存在一些线索暗示命名实体的存在，如人名地名指示词、人名或地名的指示KCC等，词性也暗示了命名实体的存在，在汉语等语言的命名实体识别中，这些特征取得了不错的效果，我们仍然沿用有效的特征。同时和其他亚洲语言一样，柬埔寨语缺乏对命名实体识别非常有效的大写特征；对于大多数自然语言处理任务，英文具有较多的训练数据、更好的知识资源及区分度较强的特征，英文命名实体识别技术较为成熟，获得不错的效果，而在全球一体化的背景下，我们可以从纸质文本、网页及维基百科获得较多的英语与其他语言的双语平行文本，从而利用...
一种基于跨语言资源的柬语命名实体识别的方法

【技术保护点】
一种基于跨语言资源的柬语命名实体识别的方法，其特征在于：获取英柬双语平行文本语料及柬语单语文本语料；然后使用工具Word2vec对柬语单语文本进行处理得到柬语单词的向量表示；再通过余弦方法计算柬语单词之间的相似度值同时使用IBM模型实现柬英双语词之间的词对齐；运用双语图模型中的标签传播算法对柬英双语语料进行处理进而得到在该文本中的柬语单词的对应类别，再将其作为跨语言特征并且连同词性特征、标记特征，包括标记人名、地名的单词特征运用到机器学习模型进而实现对所获得语料进行实体命名识别。

【技术特征摘要】
1.一种基于跨语言资源的柬语命名实体识别的方法，其特征在于：获取英柬双语平行文本语料及柬语单语文本语料；然后使用工具Word2vec对柬语单语文本进行处理得到柬语单词的向量表示；再通过余弦方法计算柬语单词之间的相似度值同时使用IBM模型实现柬英双语词之间的词对齐；运用双语图模型中的标签传播算法对柬英双语语料进行处理进而得到在该文本中的柬语单词的对应类别，再将其作为跨语言特征并且连同词性特征、标记特征，包括标记人名、地名的单词特征运用到机器学习模型进而实现对所获得语料进行实体命名识别。2.根据权利要求1所述的基于跨语言资源的柬语命名实体识别的方法，其特征在于：所述方法的具体步骤如下：Step1、获取英柬双语平行文本语料及柬语单语文本语料；Step2、使用Word2vec工具对所获得的柬语单语文本语料进行处理，得到该文本中的每个柬语单词所对应的词向量文本；Step3、计算柬语单语单词之间的相似度通过对词向量使用余弦相似度的方法来实现；设柬语文档中任意两个单词的向量表示为wi和wj，其中wi＝(wi1,wi2...win)，wj＝(wj1,wj2...wjn)，则其两词之间的相似度表示为：Step4、实现柬语单词与英语单词的词对齐：使用标准的词对齐技术IBM模型对柬语单词和英语单词进行词对齐；Step5、使用标签传播算法对柬英双语平行文本中的每个柬语单词计算出其对应的类别；Step6、将上述所得到的标签分布的类别作为柬语单词的跨语言特征，此外再连同词性特征、标记特征，包括标记人名、地名的单词特征一起作为特征模板，使用机器学习模型实现柬语的命名实体的初步识别，实体命名识别包括对柬语中的人名、地名、机构组织名，即PER、LOC、ORG命名实体识别进行识别。3.根据权利要求2所述的基于跨语言资源的柬语命名实体识别的方法，其特征在于：所述步骤Step1的具体步骤如下：Step1.1、首先利用爬虫程序从纸质文本、柬语网站和柬英双语网站中收集双语平行文本；Step1.2、对上述文本依次进行过滤、去重、分词处理，得到初级语料文本、柬语单语文本语料。4.根据权利要求2所述的基于跨语言资源的柬语命名实体识别的方法，其特征在于：所述Step2的具体步骤为：Step2.1、利用分词工具，对获取的柬语单语文本语料进行分词、去重得到初步处理文本；Step2.2、将经过上述初步处理之后的文本放于Word2vec工具中进行文本的处理，得到该文本中的每个柬语单词所对应的词向量文本。5.根据权利要求2所述的基于跨语言资源的柬语命名实体识别的方法，其特征在于：所述步骤Step5的具体步骤为：Step5.1、利用标签传播算法将英文顶点的标签分布传送到柬文顶点中；即对每个与标记为类别y的英文单词有高置信度对齐关系的柬文单词对类别y的分布如下：

【专利技术属性】
技术研发人员：严馨，谢俊，郭剑毅，余正涛，线岩团，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人