融合命名实体频繁模式特征的篇章级文本事件分类方法技术

技术编号:34953663 阅读:16 留言:0更新日期:2022-09-17 12:31
本发明专利技术涉及一种融合命名实体频繁模式特征的篇章级文本事件分类方法,属于信息处理技术领域。本发明专利技术旨在挖掘出长文档中的核心特征并发现其关键词,并通过这些特征来对篇章级文本事件进行分类。同时本发明专利技术提出了融合命名实体频繁模式特征的分类模型来解决篇章级文本事件分类问题。分类模型通过泛化实体语义信息以增强提取到的特征的鲁棒性,同时结合频繁项集挖掘算法和信息增益指数来挖掘篇章级文本的关键特征。最后,使用朴素贝叶斯分类法对篇章级文本事件进行分类。章级文本事件进行分类。章级文本事件进行分类。

【技术实现步骤摘要】
融合命名实体频繁模式特征的篇章级文本事件分类方法


[0001]本专利技术属于信息处理
,具体涉及一种融合命名实体频繁模式特征的篇章级文本事件分类方法。

技术介绍

[0002]面向事件的信息处理方法是一种能有效解决信息处理需求的技术手段。事件是一种重要的包含着丰富知识的结构化信息,直观来说,事件就是指发生在一定时间、地点涉及到一个或多个事件参与者的事情。事件分类作为事件检测、分析与挖掘的第一步,它能够快速、自动并且能够准确地将庞大地事件文本信息进行分类,可以帮助人们快速获取所需类型的事件文本,是进行事件抽取下游相关的研究和分析任务的基础。现实情况中,有很多领域的文本数据常以篇章级的长文本形态展现。在篇章级文本中,事件要素会跨越文本的各个段落,传统的分词、触发词抽取等技术极易造成信息的丢失,导致事件要素抽取错误、关键信息不全、长文本语义难以保留等问题。因此,研究面向篇章级文本的事件分类模型具有十分重要的现实意义。
[0003]目前主流的事件分类方法可分为两类,即基于机器学习的方法和基于深度学习的方法。这两种方法通常遵循一种两阶段的范式,即:首先,将文本数据转化为包含文本关键信息的向量;然后,将其输入分类模型。如何构造包含篇章级文本关键特征的特征向量是提高分类性能的关键步骤。对于传统机器学习方法来说,最常用的是基于统计的文本表示方法,这些方法简单有效,计算成本低。然而,这些方法不能有效处理数据稀疏、维度爆炸的问题,而且也无法很好地获取文本的语义信息,尤其是当文本较长、包含大量信息时。基于深度学习的方法通常使用基于神经网络的方法将文本转化为一个低维稠密的向量,相比于基于统计的文本表示方法,它能够捕捉到更多的词与句子之间的语义特征。然而,这类方法通常需要一个大规模的数据集来达到很好的效果,同时,它们的训练过程以及推理过程的时间消耗是十分巨大的。另外,基于深度学习的方法通常被看作是一个黑盒模型,它们的可解释性不强。

技术实现思路

[0004](一)要解决的技术问题
[0005]本专利技术要解决的技术问题是:如何解决篇章级文本事件分类问题。
[0006](二)技术方案
[0007]为了解决上述技术问题,本专利技术提供了一种融合命名实体频繁模式特征的篇章级文本事件分类方法,包括以下步骤:
[0008]步骤1、在语料预处理阶段,对事件文本进行命名实体识别,将识别到的命名实体替换成统一的实体标签;
[0009]步骤2、在步骤1的基础上,对隐藏在文本局部的关键特征进行挖掘,得到特征向量;
[0010]步骤3、基于所述特征向量进行分类器训练。
[0011]优选地,步骤1中,使用BERT

CRF模型来对事件文本进行命名实体识别。
[0012]优选地,步骤2中,使用一种改进的FP

Growth算法来获取文档关键词以及它们的上下文信息,同时,使用信息增益作为挑选特征词的评估标准。
[0013]优选地,步骤2具体为:
[0014]步骤2.1、基于改进的FP

Growth算法进行组合特征挖掘,得到特征频繁项集;
[0015]步骤2.2、在步骤2.1的基础上,基于信息增益进行关键特征挖掘,得到特征向量。
[0016]优选地,步骤2.1具体为:
[0017]首先,对文本进行预处理操作,包括无意义符号去除以及停用词去除,然后,对文本进行分词,将每条文本作为一个事务,事务中包含的项为每条文本分词得到的词集,FP

Growth算法用于文本特征挖掘的步骤如下:
[0018](1)首次遍历分词数据库D,统计每个词出现的次数以计算支持度,根据支持度数值大小进行降序排序,筛选出符合条件的词项构成有序频繁1项集F1,并将F1作为新的分词数据库D;
[0019](2)创建FP

Tree的根结点,记作“NULL”,第二次遍历新的分词数据库D,把每条频繁项集按照合并相同前缀的方式将其压缩到FP

Tree的分支中,并保证FP

Tree与每条文本间的联系不变;
[0020](3)挖掘FP

Tree树,自下而上地找到包含频繁项t的路径,根据所得路径构造包含频繁项t的条件模式基,递归挖掘频繁项t的条件FP

Tree得到频繁项集,进而得到F
k

[0021]其中,F
k
指包含k项的频繁项集,即频繁k项集;
[0022]设计一个距离约束函数来过滤采用步骤(1)至(3)的FP

Growth算法得到的频繁项集作为对FP

Growth算法的改进,具体来说,对于挖掘得到的任一频繁项集F
k
={w1,w2,...,w
k
},计算其中任意两个词w
i
和w
j
在文本中出现的距离dist
i,j
,对于所有的i和j,如果dist
i,j
满足如下公式(1)的距离函数条件:
[0023]dist
i,j
≤k*log2λ
ꢀꢀꢀ
(1)
[0024]那么F
k
将会被选中成为一个特征频繁项集,其中,k表示F
k
中包含的项数,λ是超参数。
[0025]优选地,步骤2.2中,信息增益的计算值为数据集的信息熵与条件熵的差值,具体来说,对于一个给定的由l类文本组成的数据集D,其信息熵的计算如公式(2)所示:
[0026][0027]其中,|D|代表着数据集D中包含的样本数量;|C
i
|代表着属于第i类样本的数量;采用OVR范式来计算条件熵,OVR范式是指对给定的n类样本,在计算其中任意一类样本的条件熵时,将其他类的样本看作为同一类,特征F对第i类样本的条件熵的计算过程如公式(3)所示:
[0028][0029]其中,c和f的取值为0或1,分别代表着特征F在第i类样本中出现与不出现,p(f)即通过统计数据集中特征F取f时的频率,p(c|f)即通过统计数据集中包含特征f的样本是类别c的概率,最后,特征F在第i类样本中的信息增益的计算公式如公式(4)所示:
[0030]IG(F,C
i
)=H(D)

H(C
i
|F)
ꢀꢀꢀ
(4)
[0031]这样,对于给定具有n类事件类型的数据集D,通过计算所有候选特征的信息增益,从而得到n个信息增益指数列表,其中包含来自每种文本类型中每个候选特征的信息增益值,候选特征包括步骤2.1挖掘得到的特征频繁项集F
k
以及对事件文本分词后的词语,接下来,设置一个特征维度V
num
,并根据数据集D中每种事件文本的比例P
i
,从对应类型的特征信息增益列本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合命名实体频繁模式特征的篇章级文本事件分类方法,其特征在于,包括以下步骤:步骤1、在语料预处理阶段,对事件文本进行命名实体识别,将识别到的命名实体替换成统一的实体标签;步骤2、在步骤1的基础上,对隐藏在文本局部的关键特征进行挖掘,得到特征向量;步骤3、基于所述特征向量进行分类器训练。2.如权利要求1所述的方法,其特征在于,步骤1中,使用BERT

CRF模型来对事件文本进行命名实体识别。3.如权利要求1所述的方法,其特征在于,步骤2中,使用一种改进的FP

Growth算法来获取文档关键词以及它们的上下文信息,同时,使用信息增益作为挑选特征词的评估标准。4.如权利要求1所述的方法,其特征在于,步骤2具体为:步骤2.1、基于改进的FP

Growth算法进行组合特征挖掘,得到特征频繁项集;步骤2.2、在步骤2.1的基础上,基于信息增益进行关键特征挖掘,得到特征向量。5.如权利要求4所述的方法,其特征在于,步骤2.1具体为:首先,对文本进行预处理操作,包括无意义符号去除以及停用词去除,然后,对文本进行分词,将每条文本作为一个事务,事务中包含的项为每条文本分词得到的词集,FP

Growth算法用于文本特征挖掘的步骤如下:(1)首次遍历分词数据库D,统计每个词出现的次数以计算支持度,根据支持度数值大小进行降序排序,筛选出符合条件的词项构成有序频繁1项集F1,并将F1作为新的分词数据库D;(2)创建FP

Tree的根结点,记作“NULL”,第二次遍历新的分词数据库D,把每条频繁项集按照合并相同前缀的方式将其压缩到FP

Tree的分支中,并保证FP

Tree与每条文本间的联系不变;(3)挖掘FP

Tree树,自下而上地找到包含频繁项t的路径,根据所得路径构造包含频繁项t的条件模式基,递归挖掘频繁项t的条件FP

Tree得到频繁项集,进而得到F
k
;其中,F
k
指包含k项的频繁项集,即频繁k项集;设计一个距离约束函数来过滤采用步骤(1)至(3)的FP

Growth算法得到的频繁项集作为对FP

Growth算法的改进,具体来说,对于挖掘得到的任一频繁项集F
k
={w1,w2,...,w
k
},计算其中任意两个词w
i
和w
j
在文本中出现的距离dist
i,j
,对于所有的i和j,如果dist
i,j
满足如下公式(1)的距离函数条件:dist
i,j
≤k*log2λ
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)那么F
k
将会被选中成为一个特征频繁项集,其中,k表示F
k
中包含的项数,λ是超参数。6.如权利要求5所述的方法,其特征在于,步骤2.2中,信息增益的计算值为数据集的信息熵与条件熵的差值,具体来说,对于一个给定的由l类文本组成的数据集D,其信息熵的计算如公式(2)所示:其中,|D|代表着数据集D中包含的样本数量;|C
i
|代表着属于第i类样本的数量;采用
OVR范式来计算条件熵,OVR范式是指对给定的n类样本,在计算其中任意一类样本的条件熵时,将其他类的样本看作为同一类,特征F对第i类样本的条件熵的计算过程如公式(3)所示:其中,c和f的取值为0或1,分别代表着特征F在第i类样本中出现与不出现,p(f)即通过统计数据集中特征F取f时的频率,p(c|f)即通过统计数据集中包含特征f的样本是类别c的概率,最后,特征F在第i类样本中的信息增益的计算公式如公式(4)所示:IG(F,C
i
)=H(D)

H(C
i

【专利技术属性】
技术研发人员:柯文俊漆睿杨雨婷田宗凯宋颖毅
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1