融合命名实体频繁模式特征的篇章级文本事件分类方法技术

技术编号：34953663 阅读：16 留言：0更新日期：2022-09-17 12:31

本发明专利技术涉及一种融合命名实体频繁模式特征的篇章级文本事件分类方法，属于信息处理技术领域。本发明专利技术旨在挖掘出长文档中的核心特征并发现其关键词，并通过这些特征来对篇章级文本事件进行分类。同时本发明专利技术提出了融合命名实体频繁模式特征的分类模型来解决篇章级文本事件分类问题。分类模型通过泛化实体语义信息以增强提取到的特征的鲁棒性，同时结合频繁项集挖掘算法和信息增益指数来挖掘篇章级文本的关键特征。最后，使用朴素贝叶斯分类法对篇章级文本事件进行分类。章级文本事件进行分类。章级文本事件进行分类。

全部详细技术资料下载

【技术实现步骤摘要】
融合命名实体频繁模式特征的篇章级文本事件分类方法

[0001]本专利技术属于信息处理
，具体涉及一种融合命名实体频繁模式特征的篇章级文本事件分类方法。

技术介绍

[0002]面向事件的信息处理方法是一种能有效解决信息处理需求的技术手段。事件是一种重要的包含着丰富知识的结构化信息，直观来说，事件就是指发生在一定时间、地点涉及到一个或多个事件参与者的事情。事件分类作为事件检测、分析与挖掘的第一步，它能够快速、自动并且能够准确地将庞大地事件文本信息进行分类，可以帮助人们快速获取所需类型的事件文本，是进行事件抽取下游相关的研究和分析任务的基础。现实情况中，有很多领域的文本数据常以篇章级的长文本形态展现。在篇章级文本中，事件要素会跨越文本的各个段落，传统的分词、触发词抽取等技术极易造成信息的丢失，导致事件要素抽取错误、关键信息不全、长文本语义难以保留等问题。因此，研究面向篇章级文本的事件分类模型具有十分重要的现实意义。
[0003]目前主流的事件分类方法可分为两类，即基于机器学习的方法和基于深度学习的方法。这两种方法通常遵循一种两阶段的范式，即：首先，将文本数据转化为包含文本关键信息的向量；然后，将其输入分类模型。如何构造包含篇章级文本关键特征的特征向量是提高分类性能的关键步骤。对于传统机器学习方法来说，最常用的是基于统计的文本表示方法，这些方法简单有效，计算成本低。然而，这些方法不能有效处理数据稀疏、维度爆炸的问题，而且也无法很好地获取文本的语义信息，尤其是当文本较长、包含大量信息时。基于深度学习的方法通常使用...

【技术保护点】

【技术特征摘要】
1.一种融合命名实体频繁模式特征的篇章级文本事件分类方法，其特征在于，包括以下步骤：步骤1、在语料预处理阶段，对事件文本进行命名实体识别，将识别到的命名实体替换成统一的实体标签；步骤2、在步骤1的基础上，对隐藏在文本局部的关键特征进行挖掘，得到特征向量；步骤3、基于所述特征向量进行分类器训练。2.如权利要求1所述的方法，其特征在于，步骤1中，使用BERT
‑
CRF模型来对事件文本进行命名实体识别。3.如权利要求1所述的方法，其特征在于，步骤2中，使用一种改进的FP
‑
Growth算法来获取文档关键词以及它们的上下文信息，同时，使用信息增益作为挑选特征词的评估标准。4.如权利要求1所述的方法，其特征在于，步骤2具体为：步骤2.1、基于改进的FP
‑
Growth算法进行组合特征挖掘，得到特征频繁项集；步骤2.2、在步骤2.1的基础上，基于信息增益进行关键特征挖掘，得到特征向量。5.如权利要求4所述的方法，其特征在于，步骤2.1具体为：首先，对文本进行预处理操作，包括无意义符号去除以及停用词去除，然后，对文本进行分词，将每条文本作为一个事务，事务中包含的项为每条文本分词得到的词集，FP
‑
Growth算法用于文本特征挖掘的步骤如下：(1)首次遍历分词数据库D，统计每个词出现的次数以计算支持度，根据支持度数值大小进行降序排序，筛选出符合条件的词项构成有序频繁1项集F1，并将F1作为新的分词数据库D；(2)创建FP
‑
Tree的根结点，记作“NULL”，第二次遍历新的分词数据库D，把每条频繁项集按照合并相同前缀的方式将其压缩到FP
‑
Tree的分支中，并保证FP
‑
Tree与每条文本间的联系不变；(3)挖掘FP
‑
Tree树，自下而上地找到包含频繁项t的路径，根据所得路径构造包含频繁项t的条件模式基，递归挖掘频繁项t的条件FP
‑
Tree得到频繁项集，进而得到F
k
；其中，F
k
指包含k项的频繁项集，即频繁k项集；设计一个距离约束函数来过滤采用步骤(1)至(3)的FP
‑
Growth算法得到的频繁项集作为对FP
‑
Growth算法的改进，具体来说，对于挖掘得到的任一频繁项集F
k
＝{w1，w2，...，w
k
}，计算其中任意两个词w
i
和w
j
在文本中出现的距离dist
i，j
，对于所有的i和j，如果dist
i，j
满足如下公式(1)的距离函数条件：dist
i，j
≤k*log2λ
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)那么F
k
将会被选中成为一个特征频繁项集，其中，k表示F
k
中包含的项数，λ是超参数。6.如权利要求5所述的方法，其特征在于，步骤2.2中，信息增益的计算值为数据集的信息熵与条件熵的差值，具体来说，对于一个给定的由l类文本组成的数据集D，其信息熵的计算如公式(2)所示：其中，|D|代表着数据集D中包含的样本数量；|C
i
|代表着属于第i类样本的数量；采用
OVR范式来计算条件熵，OVR范式是指对给定的n类样本，在计算其中任意一类样本的条件熵时，将其他类的样本看作为同一类，特征F对第i类样本的条件熵的计算过程如公式(3)所示：其中，c和f的取值为0或1，分别代表着特征F在第i类样本中出现与不出现，p(f)即通过统计数据集中特征F取f时的频率，p(c|f)即通过统计数据集中包含特征f的样本是类别c的概率，最后，特征F在第i类样本中的信息增益的计算公式如公式(4)所示：IG(F，C
i
)＝H(D)
‑
H(C
i

【专利技术属性】
技术研发人员：柯文俊，漆睿，杨雨婷，田宗凯，宋颖毅，
申请(专利权)人：北京计算机技术及应用研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人