文本事件信息提取方法、电子装置和非易失性存储介质制造方法及图纸

技术编号:22295503 阅读:37 留言:0更新日期:2019-10-15 04:39
本发明专利技术属于信息处理技术领域,为了解决现有技术中事件信息提取的技术方案存在准确率不高的技术问题,本发明专利技术提供一种本发明专利技术第一方面提供一种文本事件信息提取方法,该方法包括:对文本进行分词划分,并将分词做向量转换后得到词向量,以及将词向量输入至神经网路模型,输出实体;基于文本格式特征定义的信息类型,按照文法定义的对应模式规则,将文本块中的分词和实体按照文法定义的对应模式规则,整理成结构化后的文本块;对结构化后的文本块进行事件信息提取处理,使用文法定义的对应模式规则实现关键字抽取,并把关键字输出到结果模板中。因此,利用神经网络深度学习与规则相结合的方式,配置事件提取模型,实现文本事件信息的准确提取。

Text Event Information Extraction Method, Electronic Device and Non-volatile Storage Media

【技术实现步骤摘要】
文本事件信息提取方法、电子装置和非易失性存储介质
本专利技术涉及信息处理
,尤其涉及文本挖掘研究中事件信息提取
,具体地,涉及一种文本事件信息提取方法、电子装置和非易失性存储介质。
技术介绍
事件信息提取是文本挖掘研究中最具挑战性的任务之一,旨在利用计算机从文本中自动地提取特定类型的事件及其要素,事件信息提取作为信息处理领域的关键技术,在信息检索、自动问答、自动摘要、数据挖掘、文本挖掘等领域有着广泛的应用。事件信息提取目前的研究和实验,概括起来主要有三类:(1)、基于规则的文本事件抽取,应用这类方法的典型系统有:ExDisco、GenPAM等。(2)、基于触发词探测的文本事件抽取,其核心是触发词探测和事件要素及其角色的确定,触发词是能够很好地表述出某类事件中心意义的词;例如,职务变动事件中的“任命”、“辞职”等词语。(3)基于概率统计模型的文本信息抽取,例如用隐马尔可夫模型对计算机科研论文头部信息的所有域进行抽取。虽然将统计模型用于本中信息抽取的研究很多,但这些研究中待抽取的数据域都可以看成一个非常紧凑的序列,而文本中事件的表述往往并不具备这种特征,需要抽取的数据域是分散的、稀疏的,有的待抽取域甚至距离事件表述中心(可以看作是触发词所在的位置)有一定的距离;从而准确率上还有待提高。
技术实现思路
为了解决现有技术中事件信息提取的技术方案存在准确率不高的技术问题,本专利技术提供一种文本事件信息提取方法、电子装置和非易失性存储介质,利用神经网络深度学习与规则相结合的方式,配置事件提取模型,实现文本事件信息的准确提取。为了实现上述目的,本专利技术提供的技术方案包括:本专利技术第一方面提供一种文本事件信息提取方法,其特征在于,所述方法包括:对文本进行预处理,所述预处理包括对文本进行分词划分,并将分词做向量转换后得到词向量,以及将所述词向量输入至神经网路模型,通过所述神经网路模型输出实体;对文本进行分块处理,得到文本块,并进行文本块分类提取处理,所述文本块分类提取处理包括:基于文本格式特征定义的信息类型,按照文法定义的对应模式规则,将所述文本块中的分词和实体按照所述文法定义的对应模式规则,整理成结构化后的文本块;对所述文本中结构化后的文本块进行事件信息提取处理,所述事件信息提取处理包括使用所述文法定义的对应模式规则实现关键字抽取,并把关键字输出到事件信息提取对应的结果模板中。本专利技术实施例优选地实施方式中,当文本为个人简历时,所述个人简历分块处理后包括基本信息对应第一文本块、教育经历对应第二文本块、工作经历对应第三文本块、培训经历对应第四文本块、资格证书对应第五文本块、求职意愿对应第六文本块;所述格式特征分别包括基本信息、教育经历、工作经历、培训经历、资格证书、求职意愿对应的信息特征;所述文法定义的模式规则包括按照编译原理中的词法分析、语法分析,以及语义分析定义的判断规则。本专利技术实施例优选地实施方式中,所述对文本进行分词划分包括:在核心词典的组织中,采用双数组trie树的方法;针对交集型分词歧义,采用规则与统计相结合的方法;针对未登录词识别,采用基于条件随机场的识别方法。本专利技术实施例优选地实施方式中,所述深度神经网络模型包括Embedding层、双向RNN层和CRF层;所述Embedding层将所述分词进行向量转换后得到词向量,依次送入双向RNN层,得到分词标签的概率分布,所述分词标签的概率分布送入所述CRF层,得到实体对应的实体标签序列。本专利技术实施例优选地实施方式中,所述模式规则为可修改的,所述规则的配置信息提取模型,能够根据不同的应用场景分别进行配置;并且所述模式规则中设置有类属信息,所述文本预处理还包括文本行内上下文规则分析,所述文本行内上下文规则分析包括对文本进行分词切分和实体识别的结果,采用预定的规则校正方法对分词结果进行修正,对有歧义的类属进行重新标识。本专利技术实施例优选地实施方式中,所述模式规则包括化简合并规则,并且将复杂的长规则放在前面,将简单的短规则放在后面。本专利技术实施例优选地实施方式中,所述将所述文本块中的分词和实体按照对应的模式规则,整理成结构化后的文本块包括:采用模式规则顺序判断连续行是否符合特定的模式,并在完成文本符合对应特定模式结束后,将各行匹配上的模式规则结果存入字符串类型的多维数组中。本专利技术实施例优选地实施方式中,所述规则的配置信息提取模型采用规则描述语言NPRDL进行表达书写的,NPRDL语言采用的是BNF范式;并且所述描述语言是基于复杂特征集的手段来描述词汇的语法语义信息,同时在动态分析中使用基于复杂特征集描述的动态属性表来描述。本专利技术第二方面还提供一种电子装置,其特征在于,包括:存储器;处理器;以及计算机程序;其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面提供的任意一种所述的方法。本专利技术第三方面还提供一种非易失性存储介质,其上存储有计算机程序,其特征在于,该计算机程序被执行时实现如第一方面提供的任意一种所述方法的步骤。采用本专利技术提供的上述技术方案,可以获得以下有益效果:1、利用神经网络的数学模型,对文本进行分词切分和实体识别,可以快速得到文本中的基本要素,结合模式规则的方式对文本进行文本块分类信息提取,将文本块中的分词和实体按照文法定义的对应模式规则,整理成结构化后的文本块,这样以更利于信息提取的方式将文本信息按照计算机语言要求的文法表达式结构化,而在文本分块结构化处理的基础上再进行事件提取,有效解决数据分散、稀疏以及抽取域距离事件表述中心较远的问题,这样文本事件信息的准确提取;而且实体识别包括采用深度神经网络模型进行识别,提升了识别效果。2、作为优选的实施方式,在模式规则包括有类属信息,所以通过引入外置可自定义的类属词典,让模式规则的使用更加方便。3、模式规则的基础是可修改的,例如,采用规则描述语言NPRDL进行表达书写的,NPRDL语言采用的是BNF范式;针对不同应用场景,可以灵活快速的配置信息提取模型。4、将复杂的长规则放在前面,将简单的短规则放在后面;由于规则匹配从前至后进行,避免可能会出现先与前面的规则匹配成功、后面的则因为没有遍历到,而造成匹配失败的技术问题。专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书变得显而易见,或者通过实施本专利技术的技术方案而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。附图说明图1为本专利技术实施例提供一种文本事件信息提取方法的流程图。图2为本专利技术实施例提供一种文本事件信息提取方法中文本预处理的流程图。图3为本专利技术实施例提供一种文本事件信息提取方法中文本块分类提取的流程图。图4为本专利技术实施例提供一种文本事件信息提取方法中事件信息提取的流程图。图5为本专利技术实施例提供一种文本事件信息提取装置的结构框图。图6为本专利技术实施例提供一种电子装置的结构框图。具体实施方式以下将结合附图及实施例来详细说明本专利技术的实施方式,借此对本专利技术如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,这些具体的说明只是让本领域普通技术人员更加容易、清晰理解本专利技术,而非对本专利技术的限定性解释;并且只要不构成冲突,本专利技术中的各个实本文档来自技高网...

【技术保护点】
1.一种文本事件信息提取方法,其特征在于,所述方法包括:对文本进行预处理,所述预处理包括对文本进行分词划分,并将分词做向量转换后得到词向量,以及将所述词向量输入至神经网路模型,通过所述神经网路模型输出实体;对文本进行分块处理,得到文本块,并进行文本块分类提取处理,所述文本块分类提取处理包括:基于文本格式特征定义的信息类型,按照文法定义的对应模式规则,将所述文本块中的分词和实体按照所述文法定义的对应模式规则,整理成结构化后的文本块;对所述文本中结构化后的文本块进行事件信息提取处理,所述事件信息提取处理包括使用所述文法定义的对应模式规则实现关键字抽取,并把关键字输出到事件信息提取对应的结果模板中。

【技术特征摘要】
1.一种文本事件信息提取方法,其特征在于,所述方法包括:对文本进行预处理,所述预处理包括对文本进行分词划分,并将分词做向量转换后得到词向量,以及将所述词向量输入至神经网路模型,通过所述神经网路模型输出实体;对文本进行分块处理,得到文本块,并进行文本块分类提取处理,所述文本块分类提取处理包括:基于文本格式特征定义的信息类型,按照文法定义的对应模式规则,将所述文本块中的分词和实体按照所述文法定义的对应模式规则,整理成结构化后的文本块;对所述文本中结构化后的文本块进行事件信息提取处理,所述事件信息提取处理包括使用所述文法定义的对应模式规则实现关键字抽取,并把关键字输出到事件信息提取对应的结果模板中。2.根据权利要求1所述的方法,其特征在于,当文本为个人简历时,所述个人简历分块处理后包括基本信息对应第一文本块、教育经历对应第二文本块、工作经历对应第三文本块、培训经历对应第四文本块、资格证书对应第五文本块、求职意愿对应第六文本块;所述格式特征分别包括基本信息、教育经历、工作经历、培训经历、资格证书、求职意愿对应的信息特征;所述文法定义的模式规则包括按照编译原理中的词法分析、语法分析,以及语义分析定义的判断规则。3.根据权利要求1所述的方法,其特征在于,所述对文本进行分词划分包括:在核心词典的组织中,采用双数组trie树的方法;针对交集型分词歧义,采用规则与统计相结合的方法;针对未登录词识别,采用基于条件随机场的识别方法。4.根据权利要求1所述的方法,其特征在于,所述深度神经网络模型包括Embedding层、双向RNN层和CRF层;所述Embedding层将所述分词进行向量转换后得到词向量,依次送入双...

【专利技术属性】
技术研发人员:乔春庚江敏刘瑞宝
申请(专利权)人:拓尔思信息技术股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1