文本事件信息提取方法、电子装置和非易失性存储介质制造方法及图纸

技术编号：22295503 阅读：37 留言：0更新日期：2019-10-15 04:39

本发明专利技术属于信息处理技术领域，为了解决现有技术中事件信息提取的技术方案存在准确率不高的技术问题，本发明专利技术提供一种本发明专利技术第一方面提供一种文本事件信息提取方法，该方法包括：对文本进行分词划分，并将分词做向量转换后得到词向量，以及将词向量输入至神经网路模型，输出实体；基于文本格式特征定义的信息类型，按照文法定义的对应模式规则，将文本块中的分词和实体按照文法定义的对应模式规则，整理成结构化后的文本块；对结构化后的文本块进行事件信息提取处理，使用文法定义的对应模式规则实现关键字抽取，并把关键字输出到结果模板中。因此，利用神经网络深度学习与规则相结合的方式，配置事件提取模型，实现文本事件信息的准确提取。

Text Event Information Extraction Method, Electronic Device and Non-volatile Storage Media

全部详细技术资料下载

【技术实现步骤摘要】
文本事件信息提取方法、电子装置和非易失性存储介质
本专利技术涉及信息处理
，尤其涉及文本挖掘研究中事件信息提取
，具体地，涉及一种文本事件信息提取方法、电子装置和非易失性存储介质。
技术介绍
事件信息提取是文本挖掘研究中最具挑战性的任务之一,旨在利用计算机从文本中自动地提取特定类型的事件及其要素，事件信息提取作为信息处理领域的关键技术，在信息检索、自动问答、自动摘要、数据挖掘、文本挖掘等领域有着广泛的应用。事件信息提取目前的研究和实验，概括起来主要有三类：(1)、基于规则的文本事件抽取，应用这类方法的典型系统有：ExDisco、GenPAM等。(2)、基于触发词探测的文本事件抽取，其核心是触发词探测和事件要素及其角色的确定，触发词是能够很好地表述出某类事件中心意义的词；例如，职务变动事件中的“任命”、“辞职”等词语。(3)基于概率统计模型的文本信息抽取，例如用隐马尔可夫模型对计算机科研论文头部信息的所有域进行抽取。虽然将统计模型用于本中信息抽取的研究很多,但这些研究中待抽取的数据域都可以看成一个非常紧凑的序列,而文本中事件的表述往往并不具备这种特征,需要抽取的数据域是分散的、稀疏的,有的待抽取域甚至距离事件表述中心(可以看作是触发词所在的位置)有一定的距离；从而准确率上还有待提高。
技术实现思路
为了解决现有技术中事件信息提取的技术方案存在准确率不高的技术问题，本专利技术提供一种文本事件信息提取方法、电子装置和非易失性存储介质，利用神经网络深度学习与规则相结合的方式，配置事件提取模型，实现文本事件信息的准确提取。为了实现上述目的，本专利技术提供的技...

【技术保护点】
1.一种文本事件信息提取方法，其特征在于，所述方法包括：对文本进行预处理，所述预处理包括对文本进行分词划分，并将分词做向量转换后得到词向量，以及将所述词向量输入至神经网路模型，通过所述神经网路模型输出实体；对文本进行分块处理，得到文本块，并进行文本块分类提取处理，所述文本块分类提取处理包括：基于文本格式特征定义的信息类型，按照文法定义的对应模式规则，将所述文本块中的分词和实体按照所述文法定义的对应模式规则，整理成结构化后的文本块；对所述文本中结构化后的文本块进行事件信息提取处理，所述事件信息提取处理包括使用所述文法定义的对应模式规则实现关键字抽取，并把关键字输出到事件信息提取对应的结果模板中。

【技术特征摘要】
1.一种文本事件信息提取方法，其特征在于，所述方法包括：对文本进行预处理，所述预处理包括对文本进行分词划分，并将分词做向量转换后得到词向量，以及将所述词向量输入至神经网路模型，通过所述神经网路模型输出实体；对文本进行分块处理，得到文本块，并进行文本块分类提取处理，所述文本块分类提取处理包括：基于文本格式特征定义的信息类型，按照文法定义的对应模式规则，将所述文本块中的分词和实体按照所述文法定义的对应模式规则，整理成结构化后的文本块；对所述文本中结构化后的文本块进行事件信息提取处理，所述事件信息提取处理包括使用所述文法定义的对应模式规则实现关键字抽取，并把关键字输出到事件信息提取对应的结果模板中。2.根据权利要求1所述的方法，其特征在于，当文本为个人简历时，所述个人简历分块处理后包括基本信息对应第一文本块、教育经历对应第二文本块、工作经历对应第三文本块、培训经历对应第四文本块、资格证书对应第五文本块、求职意愿对应第六文本块；所述格式特征分别包括基本信息、教育经历、工作经历、培训经历、资格证书、求职意愿对应的信息特征；所述文法定义的模式规则包括按照编译原理中的词法分析、语法分析，以及语义分析定义的判断规则。3.根据权利要求1所述的方法，其特征在于，所述对文本进行分词划分包括：在核心词典的组织中，采用双数组trie树的方法；针对交集型分词歧义，采用规则与统计相结合的方法；针对未登录词识别，采用基于条件随机场的识别方法。4.根据权利要求1所述的方法，其特征在于，所述深度神经网络模型包括Embedding层、双向RNN层和CRF层；所述Embedding层将所述分词进行向量转换后得到词向量，依次送入双...

【专利技术属性】
技术研发人员：乔春庚，江敏，刘瑞宝，
申请(专利权)人：拓尔思信息技术股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人