当前位置: 首页 > 专利查询>福州大学专利>正文

规则驱动下基于特征的文本关系抽取方法技术

技术编号:21686433 阅读:68 留言:0更新日期:2019-07-24 14:45
本发明专利技术涉及一种规则驱动下基于特征的文本关系抽取方法。采用自然语言处理工具CoreNLP将一待处理领域文本分句,得到该待处理领域下的简单句集合;将实体候选集和该待处理领域下的简单句集合作为关系抽取的输入,使用规则驱动下基于特征的关系抽取算法对输入进行关系抽取,最终得到该待处理领域下的实体关系三元组。本发明专利技术方法结合规则与机器学习的方法面向特定领域的文本进行实体关系的抽取,可以提高当前特定领域下文本的信息抽取准确度,并在实际应用场景中验证了该方法的可行性和有效性。

Feature-based Text Relation Extraction Method Driven by Rules

【技术实现步骤摘要】
规则驱动下基于特征的文本关系抽取方法
本专利技术涉及一种规则驱动下基于特征的文本关系抽取方法。
技术介绍
当前互联网存储了世界中的各类信息,随着云计算和大数据时代的到来,互联网中数据信息量增长也愈来愈快,中文文本的信息抽取成为关键性问题。同时,当前各阶层对信息的获取需求也越来越大,把互联网中的有效信息抽取并识别,不仅服务于科研人员,社会乃至国家都对此有较大的需求。当前互联网中的海量数据大部分是以文本的形式存在的,即非结构化数据,它也是信息抽取的主要的数据来源。现在的信息抽取技术主要针对公开领域信息的抽取,大致分为基于规则和基于机器学习的实体关系抽取方法。然而以上两种方法都存在一些问题:1、当前基于规则的信息抽取方法无统一的规则参考模式,且较为依赖领域知识导致该方法的泛化能力低;使用基于机器学习的方法进行实体关系抽取时,人工标注过程较为繁琐,且如果没有领域知识的支撑可能导致抽取准确率较低。2、面向公开领域的实体关系抽取技术在针对不同领域文本信息抽取过程中,由于领域知识区别较大,抽取的效果各不相同。
技术实现思路
本专利技术的目的在于提供一种规则驱动下基于特征的文本关系抽取方法,结合规则与机器学习的方法面向特定领域的文本进行实体关系的抽取,可以提高当前特定领域下文本的信息抽取准确度,并在实际应用场景中验证了该方法的可行性和有效性。为实现上述目的,本专利技术的技术方案是:一种规则驱动下基于特征的文本关系抽取方法,采用自然语言处理工具CoreNLP将一待处理领域文本分句,得到该待处理领域下的简单句集合;将实体候选集和该待处理领域下的简单句集合作为关系抽取的输入,使用规则驱动下基于特征的关系抽取算法对输入进行关系抽取,最终得到该待处理领域下的实体关系三元组。在本专利技术一实施例中,所述实体候选集为待处理领域下的实体集合,并通过命名实体识别算法进行复杂实体的识别,以完善实体候选集。在本专利技术一实施例中,所述命名实体识别算法实现如下:1)识别关键词触发阶段扫描自由文本中的分词,当扫描到实体关键词时,将此分词作为触发词,并确定此触发词所属实体类别,开始调用相应实体规则即关键词规则进行匹配;2)候选实体获取当确定关键词类别后,将关键词之前至上一个句子之间的实体下标序列与相应实体规则逐一进行匹配,将这些实体与下标序列作为候选实体保存,组成实体候选集;3)命名实体最佳匹配规则选择由于步骤2)中筛选的实体候选集可能包含较多实体,因此需从中选择与核心词相关的正确实体,即确定实体的左边界;在实际的匹配过程中,在实体规则中加入参数P用来调整规则选择,参数P的公式如下:其中,α表示正相关,式中表示正相关于对于每一个实体候选集,为一个固定值;4)实体左边界确定和左边界修正由步骤3)确定实体长度length,从触发词开始往前回溯length个分词即可确定实体的左边界,这些分词所构成的分词串则代表相应的实体;同时,在实体识别过程中,若获得的实体并非以所需词语开头的实体,则需继续在阈值范围内向前匹配,即向前匹配n个词,直到在同一句子中遇到所需词语开头为止,如果在阈值范围内无所需词语,则取消修正。在本专利技术一实施例中,所述基于特征的关系抽取算法具体实现如下:(1)从简单句集合<Sen>中取下一个分句,匹配该分句中的实体,存在则转到(2)继续执行,如果不存在则算法结束;(2)对取出的分句,判断其内是否存在一个及一个以上的命名实体,如果只存在一个,则转到(3);如果存在两个或两个以上,转到(4);(3)判断命名实体是否含介词,如果不包含则转到(1);如果包含介词则继续判断该介词的两侧的词组是否包含具体的语义信息,即判断是不是嵌套的语义标注,如果没有则转(1);如果有则构建相应的三元组,添加到三元组表PrepList中;(4)取出该分句中所有只包含一个主谓宾结构的简单句,对所有简单句组成的集合进行遍历;(5)依次遍历(4)中生成的简单句集合,根据规则中的包括的词性、实体类型、实体内容、关系预测、依存句法分析的语法判断实体和实体间的关系,生成主语词组、谓语、宾语词组结构的三元组;(6)分析词组中的实体的的实例,通过包括谓词的语义信息以及命名实体的标注类型的相关信息,判断该三元组的关系类型;(7)输出实体关系的三元组。相较于现有技术,本专利技术具有以下有益效果:本专利技术方法结合规则与机器学习的方法面向特定领域的文本进行实体关系的抽取,可以提高当前特定领域下文本的信息抽取准确度,并在实际应用场景中验证了该方法的可行性和有效性。附图说明图1为本专利技术规则驱动下基于特征的文本关系抽取概览图。图2为本专利技术实体抽取规则的定义。图3为本专利技术命名实体识别算法流程图。图4为本专利技术关系抽取规则的定义。具体实施方式下面结合附图,对本专利技术的技术方案进行具体说明。本专利技术提供了一种规则驱动下基于特征的文本关系抽取方法,采用自然语言处理工具CoreNLP将一待处理领域文本分句,得到该待处理领域下的简单句集合;将实体候选集和该待处理领域下的简单句集合作为关系抽取的输入,使用规则驱动下基于特征的关系抽取算法对输入进行关系抽取,最终得到该待处理领域下的实体关系三元组。所述实体候选集为待处理领域下的实体集合,并通过命名实体识别算法进行复杂实体的识别,以完善实体候选集。所述命名实体识别算法实现如下:1)识别关键词触发阶段扫描自由文本中的分词,当扫描到实体关键词时,将此分词作为触发词,并确定此触发词所属实体类别,开始调用相应实体规则即关键词规则进行匹配;2)候选实体获取当确定关键词类别后,将关键词之前至上一个句子之间的实体下标序列与相应实体规则逐一进行匹配,将这些实体与下标序列作为候选实体保存,组成实体候选集;3)命名实体最佳匹配规则选择由于步骤2)中筛选的实体候选集可能包含较多实体,因此需从中选择与核心词相关的正确实体,即确定实体的左边界;在实际的匹配过程中,在实体规则中加入参数P用来调整规则选择,参数P的公式如下:其中,α表示正相关,式中表示正相关于对于每一个实体候选集,为一个固定值;4)实体左边界确定和左边界修正由步骤3)确定实体长度length,从触发词开始往前回溯length个分词即可确定实体的左边界,这些分词所构成的分词串则代表相应的实体;同时,在实体识别过程中,若获得的实体并非以所需词语开头的实体,则需继续在阈值范围内向前匹配,即向前匹配n个词,直到在同一句子中遇到所需词语开头为止,如果在阈值范围内无所需词语,则取消修正。所述基于特征的关系抽取算法具体实现如下:(1)从简单句集合<Sen>中取下一个分句,匹配该分句中的实体,存在则转到(2)继续执行,如果不存在则算法结束;(2)对取出的分句,判断其内是否存在一个及一个以上的命名实体,如果只存在一个,则转到(3);如果存在两个或两个以上,转到(4);(3)判断命名实体是否含介词,如果不包含则转到(1);如果包含介词则继续判断该介词的两侧的词组是否包含具体的语义信息,即判断是不是嵌套的语义标注,如果没有则转(1);如果有则构建相应的三元组,添加到三元组表PrepList中;(4)取出该分句中所有只包含一个主谓宾结构的简单句,对所有简单句组成的集合进行遍历;(5)依次遍历(4)中生成的简单句集合,根据规则中的包括的词性、实体类型本文档来自技高网...

【技术保护点】
1.一种规则驱动下基于特征的文本关系抽取方法,其特征在于,采用自然语言处理工具CoreNLP将一待处理领域文本分句,得到该待处理领域下的简单句集合;将实体候选集和该待处理领域下的简单句集合作为关系抽取的输入,使用规则驱动下基于特征的关系抽取算法对输入进行关系抽取,最终得到该待处理领域下的实体关系三元组。

【技术特征摘要】
1.一种规则驱动下基于特征的文本关系抽取方法,其特征在于,采用自然语言处理工具CoreNLP将一待处理领域文本分句,得到该待处理领域下的简单句集合;将实体候选集和该待处理领域下的简单句集合作为关系抽取的输入,使用规则驱动下基于特征的关系抽取算法对输入进行关系抽取,最终得到该待处理领域下的实体关系三元组。2.根据权利要求1所述的规则驱动下基于特征的文本关系抽取方法,其特征在于,所述实体候选集为待处理领域下的实体集合,并通过命名实体识别算法进行复杂实体的识别,以完善实体候选集。3.根据权利要求1或2所述的规则驱动下基于特征的文本关系抽取方法,其特征在于,所述命名实体识别算法实现如下:1)识别关键词触发阶段扫描自由文本中的分词,当扫描到实体关键词时,将此分词作为触发词,并确定此触发词所属实体类别,开始调用相应实体规则即关键词规则进行匹配;2)候选实体获取当确定关键词类别后,将关键词之前至上一个句子之间的实体下标序列与相应实体规则逐一进行匹配,将这些实体与下标序列作为候选实体保存,组成实体候选集;3)命名实体最佳匹配规则选择由于步骤2)中筛选的实体候选集可能包含较多实体,因此需从中选择与核心词相关的正确实体,即确定实体的左边界;在实际的匹配过程中,在实体规则中加入参数P用来调整规则选择,参数P的公式如下:其中,α表示正相关,式中表示正相关于对于每一个实体候选集,为一个固定值;4)实体左边界确定和左边界修正由步骤3)确定实体长度length,从触发词开始往...

【专利技术属性】
技术研发人员:刘耿耿胡传淑敏张祖文陈星张佳俊
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1