规则驱动下基于特征的文本关系抽取方法技术

技术编号：21686433 阅读：68 留言：0更新日期：2019-07-24 14:45

本发明专利技术涉及一种规则驱动下基于特征的文本关系抽取方法。采用自然语言处理工具CoreNLP将一待处理领域文本分句，得到该待处理领域下的简单句集合；将实体候选集和该待处理领域下的简单句集合作为关系抽取的输入，使用规则驱动下基于特征的关系抽取算法对输入进行关系抽取，最终得到该待处理领域下的实体关系三元组。本发明专利技术方法结合规则与机器学习的方法面向特定领域的文本进行实体关系的抽取，可以提高当前特定领域下文本的信息抽取准确度，并在实际应用场景中验证了该方法的可行性和有效性。

Feature-based Text Relation Extraction Method Driven by Rules

全部详细技术资料下载

【技术实现步骤摘要】
规则驱动下基于特征的文本关系抽取方法
本专利技术涉及一种规则驱动下基于特征的文本关系抽取方法。
技术介绍
当前互联网存储了世界中的各类信息，随着云计算和大数据时代的到来，互联网中数据信息量增长也愈来愈快，中文文本的信息抽取成为关键性问题。同时，当前各阶层对信息的获取需求也越来越大，把互联网中的有效信息抽取并识别，不仅服务于科研人员，社会乃至国家都对此有较大的需求。当前互联网中的海量数据大部分是以文本的形式存在的，即非结构化数据，它也是信息抽取的主要的数据来源。现在的信息抽取技术主要针对公开领域信息的抽取，大致分为基于规则和基于机器学习的实体关系抽取方法。然而以上两种方法都存在一些问题：1、当前基于规则的信息抽取方法无统一的规则参考模式，且较为依赖领域知识导致该方法的泛化能力低；使用基于机器学习的方法进行实体关系抽取时，人工标注过程较为繁琐，且如果没有领域知识的支撑可能导致抽取准确率较低。2、面向公开领域的实体关系抽取技术在针对不同领域文本信息抽取过程中，由于领域知识区别较大，抽取的效果各不相同。
技术实现思路
本专利技术的目的在于提供一种规则驱动下基于特征的文本关系抽取方法，结合规则与机器学习的方法面向特定领域的文本进行实体关系的抽取，可以提高当前特定领域下文本的信息抽取准确度，并在实际应用场景中验证了该方法的可行性和有效性。为实现上述目的，本专利技术的技术方案是：一种规则驱动下基于特征的文本关系抽取方法，采用自然语言处理工具CoreNLP将一待处理领域文本分句，得到该待处理领域下的简单句集合；将实体候选集和该待处理领域下的简单句集合作为关系抽取的输入，使用规...

【技术保护点】
1.一种规则驱动下基于特征的文本关系抽取方法，其特征在于，采用自然语言处理工具CoreNLP将一待处理领域文本分句，得到该待处理领域下的简单句集合；将实体候选集和该待处理领域下的简单句集合作为关系抽取的输入，使用规则驱动下基于特征的关系抽取算法对输入进行关系抽取，最终得到该待处理领域下的实体关系三元组。

【技术特征摘要】
1.一种规则驱动下基于特征的文本关系抽取方法，其特征在于，采用自然语言处理工具CoreNLP将一待处理领域文本分句，得到该待处理领域下的简单句集合；将实体候选集和该待处理领域下的简单句集合作为关系抽取的输入，使用规则驱动下基于特征的关系抽取算法对输入进行关系抽取，最终得到该待处理领域下的实体关系三元组。2.根据权利要求1所述的规则驱动下基于特征的文本关系抽取方法，其特征在于，所述实体候选集为待处理领域下的实体集合，并通过命名实体识别算法进行复杂实体的识别，以完善实体候选集。3.根据权利要求1或2所述的规则驱动下基于特征的文本关系抽取方法，其特征在于，所述命名实体识别算法实现如下：1)识别关键词触发阶段扫描自由文本中的分词，当扫描到实体关键词时，将此分词作为触发词，并确定此触发词所属实体类别，开始调用相应实体规则即关键词规则进行匹配；2)候选实体获取当确定关键词类别后，将关键词之前至上一个句子之间的实体下标序列与相应实体规则逐一进行匹配，将这些实体与下标序列作为候选实体保存，组成实体候选集；3)命名实体最佳匹配规则选择由于步骤2)中筛选的实体候选集可能包含较多实体，因此需从中选择与核心词相关的正确实体，即确定实体的左边界；在实际的匹配过程中，在实体规则中加入参数P用来调整规则选择，参数P的公式如下：其中，α表示正相关，式中表示正相关于对于每一个实体候选集，为一个固定值；4)实体左边界确定和左边界修正由步骤3)确定实体长度length，从触发词开始往...

【专利技术属性】
技术研发人员：刘耿耿，胡传淑敏，张祖文，陈星，张佳俊，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人