一种基于规则与深度学习的知识抽取方法技术

技术编号:19692192 阅读:24 留言:0更新日期:2018-12-08 11:16
本发明专利技术涉及一种基于规则与深度学习的知识抽取方法,包括以下步骤:一专家定义概念并对概念之间的关系进行定义并生成规则。二将生成的规则进行知识抽取,抽取出匹配概念和概念之间关系的文本。三将步骤二中抽取出的文本,利用深度学习方法进行训练;从而得到更多的概念和概念之间的关系。四将步骤三中得到的更多的概念和概念之间的关系,进行知识抽取,并将该抽取的结果进行标注;并对知识抽取时的精确率、召回率和F1值进行评判;所述精确率、召回率和F1值作为评价标准。五重复步骤三和步骤四,直至所述评价标准达到预设的标准。本方法能解决机器学习的冷启动问题,也能够得到未知的概念和概念间的关系,能够提高知识抽取的召回率。

【技术实现步骤摘要】
一种基于规则与深度学习的知识抽取方法
本专利技术涉及文本挖掘与信息抽取的
,具体涉及一种基于规则与深度学习的知识抽取方法。
技术介绍
知识抽取是指从数字资源中识别、发现和提取出概念、类型、事实及其相关关系、约束规则,以及行问题求解的步骤、规则的过程。目前针对文本的知识抽取技术大致可以分为两类:机器学习方法或基于规则的方法。机器学习方法经常需要大量的训练语料,并且使用复杂的、难以解释的模型。机器学习和自然语言处理技术,可以用来实现监督分类,产生模型,语义分析,词性标注等。其他的工作还包括使用马尔可夫逻辑网络(MLN),隐马尔科夫模型(HMM)和条件随机场(CRF)等,例如将输入语句映射为标记序列。这些方法需要大量的训练数据,难以解决冷启动的问题。规则的方法可以提供清晰、容易理解的特定域的语言,但是通常很费时费力。规则方法通常依赖于领域专家定义的规则。常见的基于规则的方法包括包装器方法,这些系统需要学习提取目标周围的分割符,这使得它们只能分析特定结构的文档,例如DOM结构的文档。虽然基于规则的方法精确率较高,但通常存在召回率较低的问题。
技术实现思路
1、所要解决的技术问题:本专利技术的目的在于提供一种基于规则与深度学习的知识抽取方法,本方法是将知识抽取中的规则方法和深度学习方法融合,以克服单一方法的缺点,获得更好的抽取结果。本专利技术首先使用少量的规则对概念和概念的关系进行定义,抽取生成训练语料,进一步从这些语料中学习,以解决机器学习的冷启动问题,同时解决规则方法召回率较低的缺点。2、技术方案:一种基于规则与深度学习的知识抽取方法,包括以下步骤:步骤一:专家定义所属定义域中的概念和概念间的关系进行定义;并使用包含上下文计算符和布尔关系计算符的生成文法描述概念和概念之间的关系的规则。步骤二:基于步骤一中生成的规则进行知识抽取,抽取出匹配概念和概念之间关系的文本。步骤三:基于步骤二中抽取出的匹配概念和概念之间关系的文本,对深度学习方法进行训练;从而得到更多的概念和概念之间的关系。步骤四:基于步骤三中得到的更多的概念和概念之间的关系,进行知识抽取,并对该抽取的结果进行标注;并对知识抽取时的精确率、召回率和F1值进行评判;所述精确率、召回率和F1值作为评价标准。步骤五:重复步骤三和步骤四,直至所述评价标准达到预设的标准。进一步地,所述步骤一中的上下文环境计算符号包括但不限于:“SENT”:作用域内的所有概念必须出现在一条语句中;“DIST_n”:作用域内的任何两个相邻概念之间的距离不能大于n;“ORD”:作用域内的所有概念顺序出现;“CONT”:作用域内的所有概念相邻。所述布尔关系计算符号包括:“AND”:作用域中的所有字句必须同时在输入文本中出现;“OR”:作用域中的所有字句至少有有一个在输入文本中出现;“NOT”:作用域中的字句不能出现,否则输入文本不匹配。进一步地,所述步骤一中使用包含上下文计算符和布尔关系计算符的生成文法是基于TML语言实现。进一步地,所述步骤二中的知识抽取是基于TML语言实现。进一步地,所述步骤三中的深度学习方法,为概念学习方法或者/和概念关系学习方法。3、有益效果:本专利技术提供的基于规则与深度学习的知识抽取方法,一方面规则方法能解决机器学习的冷启动问题,另外一方面深度学习得到未知的概念和概念间的关系,能够提高知识抽取的召回率。附图说明图1为本方法的结构图。具体实施方式下面结合附图对本专利技术进行进一步的说明。如附图1所示一种基于规则与深度学习的知识抽取方法,是将知识抽取中的规则方法和深度学习方法融合,从而克服单一方法的缺点,获得更好的抽取结果。具体过程包括以下步骤:步骤一:专家定义所属定义域中的概念和概念间的关系进行定义;并使用包含上下文计算符和布尔关系计算符的生成文法描述概念和概念之间的关系的规则。步骤二:基于步骤一种生成的规则进行知识抽取,抽取出匹配概念和概念之间关系的文本。步骤三:基于步骤二中抽取出的匹配概念和概念之间关系的文本,对深度学习方法进行训练;从而得到更多的概念和概念之间的关系。步骤四:基于步骤三中得到的更多的概念和概念之间的关系,进行知识抽取,并对该抽取的结果进行标注;并对知识抽取时的精确率、召回率和F1值进行评判;所述精确率、召回率和F1值作为评价标准。步骤五:重复步骤三和步骤四,直至所述评价标准达到预设的标准。进一步地,所述步骤一中的上下文环境计算符号包括但不限于:“SENT”:作用域内的所有概念必须出现在一条语句中;“DIST_n”:作用域内的任何两个相邻概念之间的距离不能大于n;“ORD”:作用域内的所有概念顺序出现;“CONT”:作用域内的所有概念相邻。所述布尔关系计算符号包括:“AND”:作用域中的所有字句必须同时在输入文本中出现;“OR”:作用域中的所有字句至少有有一个在输入文本中出现;“NOT”:作用域中的字句不能出现,否则输入文本不匹配。进一步地,所述步骤一中使用包含上下文计算符和布尔关系计算符的生成文法是基于TML语言实现。进一步地,所述步骤二中的知识抽取是基于TML语言实现。进一步地,所述步骤三中的深度学习方法,为概念学习方法或者/和概念关系学习方法。(1)概念学习方法:包括对概念的内部组成的学习方法和对概念的外部环境的学习方法。对概念的内部组成的学习方法利用概念的语义相似性来进行学习。例如基于词向量找到每一个显式定义的同义词,或将与一个概念的多个实例为同义词的概念识别为新概念。对概念的外部环境的学习方法利用概念的上下文环境特征来进行学习。例如将概念抽取转变为BMES式的序列标注,训练结合LSTM和链式CRF的方法来进行自动序列标注。根据标注结果识别新概念。(2)概念关系学习方法:将匹配了概念关系的文本作为训练语料,将关系抽取作为深度学习的分类问题,学习特定的上下文关系可以确定此种关系。例如使用卷积网络(CNN)完成概念关系学习。下面主要通过对医疗问诊场景中的知识抽取的实施例对本专利技术进行说明。针对症状“呼吸障碍”进行本专利技术的知识抽取:步骤一的概念和概念关系的刻画和步骤二中基于规则的知识抽取方法,可以以TML语言为基础。在TML中待抽取的概念和关系名以非终结符形式体现在程序中,字符串、正则表达式和计算符号以终结符形式体现。上下文环境计算符号包括但不限于:“SENT”:作用域内的所有概念必须出现在一条语句中;“DIST_n”:作用域内的任何两个相邻概念之间的距离不能大于n;“ORD”:作用域内的所有概念顺序出现;“CONT”:作用域内的所有概念相邻。布尔关系计算符号包括:“AND”:作用域中的所有字句必须同时在输入文本中出现;“OR”:作用域中的所有字句至少有有一个在输入文本中出现;“NOT”:作用域中的字句不能出现,否则输入文本不匹配。在将TML代码编译成字节码时,对于不包含计算符的语句,可以将它们直接合并转化为有穷状态自动机来进行匹配;而对于使用了计算符的关系抽取语句,需要将其转化为一组运行虚拟机指令加操作数以便执行。因此,基于步骤一与步骤二,使用TML语言将“呼吸障碍”症状定义为概念:CONCEPTDyspnea:=OR(“呼吸困难”,“窒息”,“气紧”);该概念将“呼吸障碍”症状定义为“呼吸困难”,“窒息”,“气紧”中的一种。再利用深度学习方本文档来自技高网...

【技术保护点】
1.一种基于规则与深度学习的知识抽取方法,其特征在于:包括以下步骤:步骤一:专家定义所属定义域中的概念和概念间的关系进行定义;并使用包含上下文计算符和布尔关系计算符的生成文法描述概念和概念之间的关系的规则;步骤二:基于步骤一中生成的规则进行知识抽取,抽取出匹配概念和概念之间关系的文本;步骤三:基于步骤二中抽取出的匹配概念和概念之间关系的文本,对深度学习方法进行训练;从而得到更多的概念和概念之间的关系;步骤四:基于步骤三中得到的更多的概念和概念之间的关系,进行知识抽取,并对该抽取的结果进行标注;并对知识抽取时的精确率、召回率和F1值进行评判;所述精确率、召回率和F1值作为评价标准;步骤五:重复步骤三和步骤四,直至所述评价标准达到预设的标准。

【技术特征摘要】
1.一种基于规则与深度学习的知识抽取方法,其特征在于:包括以下步骤:步骤一:专家定义所属定义域中的概念和概念间的关系进行定义;并使用包含上下文计算符和布尔关系计算符的生成文法描述概念和概念之间的关系的规则;步骤二:基于步骤一中生成的规则进行知识抽取,抽取出匹配概念和概念之间关系的文本;步骤三:基于步骤二中抽取出的匹配概念和概念之间关系的文本,对深度学习方法进行训练;从而得到更多的概念和概念之间的关系;步骤四:基于步骤三中得到的更多的概念和概念之间的关系,进行知识抽取,并对该抽取的结果进行标注;并对知识抽取时的精确率、召回率和F1值进行评判;所述精确率、召回率和F1值作为评价标准;步骤五:重复步骤三和步骤四,直至所述评价标准达到预设的标准。2.根据权利要求1所述的一种基于规则与深度学习的知识抽取方法,其特征在于:所述步骤一中的上下文环境计算符号包括但不限于:“SENT”:作用域...

【专利技术属性】
技术研发人员:孟涛李佳静
申请(专利权)人:南京网感至察信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1