一种基于规则与深度学习的知识抽取方法技术

技术编号：19692192 阅读：24 留言：0更新日期：2018-12-08 11:16

本发明专利技术涉及一种基于规则与深度学习的知识抽取方法，包括以下步骤：一专家定义概念并对概念之间的关系进行定义并生成规则。二将生成的规则进行知识抽取，抽取出匹配概念和概念之间关系的文本。三将步骤二中抽取出的文本，利用深度学习方法进行训练；从而得到更多的概念和概念之间的关系。四将步骤三中得到的更多的概念和概念之间的关系，进行知识抽取，并将该抽取的结果进行标注；并对知识抽取时的精确率、召回率和F1值进行评判；所述精确率、召回率和F1值作为评价标准。五重复步骤三和步骤四，直至所述评价标准达到预设的标准。本方法能解决机器学习的冷启动问题，也能够得到未知的概念和概念间的关系，能够提高知识抽取的召回率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于规则与深度学习的知识抽取方法
本专利技术涉及文本挖掘与信息抽取的
，具体涉及一种基于规则与深度学习的知识抽取方法。
技术介绍
知识抽取是指从数字资源中识别、发现和提取出概念、类型、事实及其相关关系、约束规则，以及行问题求解的步骤、规则的过程。目前针对文本的知识抽取技术大致可以分为两类：机器学习方法或基于规则的方法。机器学习方法经常需要大量的训练语料，并且使用复杂的、难以解释的模型。机器学习和自然语言处理技术，可以用来实现监督分类，产生模型，语义分析，词性标注等。其他的工作还包括使用马尔可夫逻辑网络（MLN），隐马尔科夫模型（HMM）和条件随机场（CRF）等，例如将输入语句映射为标记序列。这些方法需要大量的训练数据，难以解决冷启动的问题。规则的方法可以提供清晰、容易理解的特定域的语言，但是通常很费时费力。规则方法通常依赖于领域专家定义的规则。常见的基于规则的方法包括包装器方法，这些系统需要学习提取目标周围的分割符，这使得它们只能分析特定结构的文档，例如DOM结构的文档。虽然基于规则的方法精确率较高，但通常存在召回率较低的问题。
技术实现思路
1、所要解决的技术问题：本专利技术的目的在于提供一种基于规则与深度学习的知识抽取方法，本方法是将知识抽取中的规则方法和深度学习方法融合，以克服单一方法的缺点，获得更好的抽取结果。本专利技术首先使用少量的规则对概念和概念的关系进行定义，抽取生成训练语料，进一步从这些语料中学习，以解决机器学习的冷启动问题，同时解决规则方法召回率较低的缺点。2、技术方案：一种基于规则与深度学习的知识抽取方法，包括以下步骤：步骤一：专...

【技术保护点】
1.一种基于规则与深度学习的知识抽取方法，其特征在于：包括以下步骤：步骤一：专家定义所属定义域中的概念和概念间的关系进行定义；并使用包含上下文计算符和布尔关系计算符的生成文法描述概念和概念之间的关系的规则；步骤二：基于步骤一中生成的规则进行知识抽取，抽取出匹配概念和概念之间关系的文本；步骤三：基于步骤二中抽取出的匹配概念和概念之间关系的文本，对深度学习方法进行训练；从而得到更多的概念和概念之间的关系；步骤四：基于步骤三中得到的更多的概念和概念之间的关系，进行知识抽取，并对该抽取的结果进行标注；并对知识抽取时的精确率、召回率和F1值进行评判；所述精确率、召回率和F1值作为评价标准；步骤五：重复步骤三和步骤四，直至所述评价标准达到预设的标准。

【技术特征摘要】
1.一种基于规则与深度学习的知识抽取方法，其特征在于：包括以下步骤：步骤一：专家定义所属定义域中的概念和概念间的关系进行定义；并使用包含上下文计算符和布尔关系计算符的生成文法描述概念和概念之间的关系的规则；步骤二：基于步骤一中生成的规则进行知识抽取，抽取出匹配概念和概念之间关系的文本；步骤三：基于步骤二中抽取出的匹配概念和概念之间关系的文本，对深度学习方法进行训练；从而得到更多的概念和概念之间的关系；步骤四：基于步骤三中得到的更多的概念和概念之间的关系，进行知识抽取，并对该抽取的结果进行标注；并对知识抽取时的精确率、召回率和F1值进行评判；所述精确率、召回率和F1值作为评价标准；步骤五：重复步骤三和步骤四，直至所述评价标准达到预设的标准。2.根据权利要求1所述的一种基于规则与深度学习的知识抽取方法，其特征在于：所述步骤一中的上下文环境计算符号包括但不限于：“SENT”：作用域...

【专利技术属性】
技术研发人员：孟涛，李佳静，
申请(专利权)人：南京网感至察信息科技有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人