基于领域本体结合机器学习模型的汉语文本共指消解方法技术

技术编号：4382124 阅读：240 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种基于领域本体结合机器学习模型的汉语文本共指消解方法，包括如下步骤：（１）构建完成领域本体；（２）输入待处理的汉语文本；（３）对步骤（２）中的汉语文本进行分词与词性标注处理；（４）将汉语文本中的命名实体分为常规命名实体和领域命名实体两类，利用步骤（１）中构建的领域本体通过形式化实例获取词性规则模板，结合ＣＲＦ模型，针对领域命名实体进行识别处理；（５）针对领域命名实体之外的普通名词短语进行归并处理；（６）利用步骤（１）中构建的领域本体，获取语义类特征，结合机器学习模型，针对领域命名实体及普通名词短语进行共指消解处理。本汉语文本共指消解方法对人工成本要求较低，能够在短时间内获取高准确率的共指消解处理结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种针对汉语文本的共指消解方法，尤其涉及一种基于领域本体(Domain Ontology)、并结合机器学习模型的汉语文本共指消解方法，属于自然语言处理

技术介绍
众所周知，人们为了避免重复，习惯用代词、称谓和縮略语来指代前面提到的实体全称。例如，在文章开始处会写"华建机器翻译公司"(即一般意义上的组织机构名实体)，后面可能会说"华建机译"、"华建"等称谓(即组织机构名实体的等价表示)。这种指代现象被称为共指现象。共指现象在自然语言中起到了超链接的作用，使篇章主题更加突出，表述更加连贯与简洁；但它也在自然语言理解机制中增加了一种新的模糊成分，给自然语言处理带来了不确定性。虽然人们可以毫无困难地区分文章中实体的不同称谓，但是对于计算机来说，处理共指现象仍旧是一项非常困难的问题。所谓共指消解是将现实世界中同一实体的不同描述合并到一起的过程。所涉及到的实体包括多种类型，可以是人名、地名、组织机构名等常规命名实体，例如"张三"、"北京海淀区"、"华建机器翻译公司"，也可以是特定领域的领域实体，例如"诺基亚6300"，表示电子产品领域中的一款手机(...

【技术保护点】
一种基于领域本体结合机器学习模型的汉语文本共指消解方法，其特征在于：（１）构建完成领域本体；（２）输入待处理的汉语文本；（３）对步骤（２）中的汉语文本进行分词与词性标注处理；（４）将汉语文本中的命名实体分为常规命名实体和领域命名实体两类，利用步骤（１）中构建的领域本体通过形式化实例获取词性规则模板，结合条件随机场模型，针对领域命名实体进行识别处理；（５）针对领域命名实体之外的普通名词短语进行归并处理；（６）利用步骤（１）中构建的领域本体，获取语义类特征，结合机器学习模型，针对领域命名实体及普通名词短语进行共指消解处理。

【技术特征摘要】

【专利技术属性】
技术研发人员：黄河燕，
申请(专利权)人：华建机器翻译有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人