事件抽取方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:35917397 阅读:20 留言:0更新日期:2022-12-10 11:00
本发明专利技术公开了一种事件抽取方法,该方法包括获取原始语料,对原始语料进行召回处理,得到预设日期跨度对应的待抽取文本集;对所有待抽取文本进行提取处理,得到备选峰值短语;获取各备选峰值短语对应的时间词频以及逆时间词频,根据时间词频和所述逆时间词频确定各备选峰值短语的时间词频值;根据时间词频值,从所有备选峰值短语中筛选出事件峰值短语;对所有事件峰值短语进行聚类合并,得到至少一个文本事件。本发明专利技术通过时间词频值从所有备选峰值短语中筛选出事件峰值短语,并对所有事件峰值短语进行聚类合并,得到至少一个文本事件,从而提高了文本事件的抽取准确率,也提升了文本事件的抽取效果。事件的抽取效果。事件的抽取效果。

【技术实现步骤摘要】
事件抽取方法、装置、计算机设备及存储介质


[0001]本专利技术涉及文本处理
,尤其涉及一种事件抽取方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着科技的不断发展,互联网渐渐成为人们发布信息、获取信息和传递信息的主要载体。对于互联网上的热点事件,往往有大量网站进行转载报道,因此,如何从不同网站的无结构文本中提取出对用户有用的信息,逐渐成为人们关注的问题,而信息抽取技术应运而生。
[0003]现有技术中,往往通过粗粒度或细粒度的抽取方法对文本事件进行抽取。粗粒度的抽取方法通过对文本的事件内容进行检测和追踪来确定文本事件,但该方法不易区分相似语义的事件。细粒度的抽取方法通过对文本的事件动作进行检测来确定文本事件,但该方法需要预先定义事件抽取模式。上述两种方式均存在事件抽取的准确率低,事件抽取效果差等问题。

技术实现思路

[0004]本专利技术实施例提供一种事件抽取方法、装置、计算机设备及存储介质,以解决现有技术中事件抽取的准确率低以及事件抽取的效果差等问题。
[0005]一种事件抽取方法,包括:
[0006]获取原始语料,对所述原始语料进行召回处理,得到预设日期跨度对应的待抽取文本集;所述待抽取文本集包括至少一个待抽取文本;每一个待抽取文本均与属于所述预设日期跨度内的一个发布日期关联;
[0007]对所有所述待抽取文本进行提取处理,得到备选峰值短语;
[0008]获取各所述备选峰值短语对应的时间词频以及逆时间词频,根据所述时间词频和所述逆时间词频确定各所述备选峰值短语的时间词频值;所述时间词频是指每一个所述备选峰值短语在与同一个所述发布日期内关联的所有所述待抽取文本中的总出现次数;所述逆时间词频是指在所述预设日期跨度内的所有所述发布日期内,每一个所述备选峰值短语对应具有大于零的所述时间词频的总日期数;
[0009]根据所述时间词频值,从所有所述备选峰值短语中筛选出事件峰值短语;
[0010]对所有所述事件峰值短语进行聚类合并,得到至少一个文本事件。
[0011]一种事件抽取装置,包括:
[0012]文本召回模块,用于获取原始语料,对所述原始语料进行召回处理,得到预设日期跨度对应的待抽取文本集;所述待抽取文本集包括至少一个待抽取文本;每一个待抽取文本均与属于所述预设日期跨度内的一个发布日期关联;
[0013]短语提取模块,用于对所有所述待抽取文本进行提取处理,得到备选峰值短语;
[0014]时间词频值确定模块,用于获取各所述备选峰值短语对应的时间词频以及逆时间
词频,根据所述时间词频和所述逆时间词频确定各所述备选峰值短语的时间词频值;所述时间词频是指每一个所述备选峰值短语在与同一个所述发布日期内关联的所有所述待抽取文本中的总出现次数;所述逆时间词频是指在所述预设日期跨度内的所有所述发布日期内,每一个所述备选峰值短语对应具有大于零的所述时间词频的总日期数;
[0015]短语筛选模块,用于根据所述时间词频值,从所有所述备选峰值短语中筛选出事件峰值短语;
[0016]文本事件确定模块,用于对所有所述事件峰值短语进行聚类合并,得到至少一个文本事件。
[0017]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述事件抽取方法。
[0018]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述事件抽取方法。
[0019]本专利技术提供一种事件抽取方法、装置、计算机设备及存储介质,该方法通过召回的方式获取所有与原始语料相关的文本,从而得到所有待抽取文本。通过对所有待抽取文本进行短语分词,得到短语提取结果,并确定各个短语提取结果的词频值,从而实现了从所有短语提取结果中筛选出备选峰值短语。通过时间词频值从所有备选峰值短语中筛选出事件峰值短语,并对所有事件峰值短语进行聚类合并,得到至少一个文本事件,从而提高了文本事件的抽取准确率,也提升了文本事件的抽取效果。
附图说明
[0020]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本专利技术一实施例中事件抽取方法的应用环境示意图;
[0022]图2是本专利技术一实施例中事件抽取方法的流程图;
[0023]图3是本专利技术一实施例中事件抽取方法中步骤S50的流程图;
[0024]图4是本专利技术一实施例中事件抽取方法中步骤S501的流程图;
[0025]图5是本专利技术一实施例中事件抽取装置的原理框图;
[0026]图6是本专利技术一实施例中计算机设备的示意图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]本专利技术实施例提供的事件抽取方法,该事件抽取方法可应用如图1所示的应用环境中。具体地,该事件抽取方法应用在事件抽取装置中,该事件抽取装置包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决现有技术中事件抽取的准
确率低以及事件抽取的效果差等问题。其中,该服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。客户端又称为用户端,是指与服务器相对应,为客户提供分类服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。
[0029]在一实施例中,如图2所示,提供一种事件抽取方法,以该方法应用在图1中的客户端为例进行说明,包括如下步骤:
[0030]S10:获取原始语料,对所述原始语料进行召回处理,得到预设日期跨度对应的待抽取文本集;所述待抽取文本集包括至少一个待抽取文本;每一个待抽取文本均与属于所述预设日期跨度内的一个发布日期关联。
[0031]可理解地,原始语料为某个事件的名称或主题内容,如汽车购置税减免或2020年美国大选。待抽取文本集为包含原始语料的所有文本的集合。待抽取文本为通过原始语料召回得到的文本,需要对该文本内容进行事件抽取。预设日期跨度为从该文本从开始发布日期到截至发布日期,如从2022年8月1号到2022年8月15号,即预设日期跨度为15天。发布日期为包含原始语料该文本发布的日期或转载的日期,如华为手机发布会的发布日本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种事件抽取方法,其特征在于,包括:获取原始语料,对所述原始语料进行召回处理,得到预设日期跨度对应的待抽取文本集;所述待抽取文本集包括至少一个待抽取文本;每一个待抽取文本均与属于所述预设日期跨度内的一个发布日期关联;对所有所述待抽取文本进行提取处理,得到备选峰值短语;获取各所述备选峰值短语对应的时间词频以及逆时间词频,根据所述时间词频和所述逆时间词频确定各所述备选峰值短语的时间词频值;所述时间词频是指每一个所述备选峰值短语在与同一个所述发布日期内关联的所有所述待抽取文本中的总出现次数;所述逆时间词频是指在所述预设日期跨度内的所有所述发布日期内,每一个所述备选峰值短语对应具有大于零的所述时间词频的总日期数;根据所述时间词频值,从所有所述备选峰值短语中筛选出事件峰值短语;对所有所述事件峰值短语进行聚类合并,得到至少一个文本事件。2.如权利要求1所述的事件抽取方法,其特征在于,所述对所有所述待抽取文本进行提取处理,得到备选峰值短语,包括:对所有所述待抽取文本进行分词处理,得到短语分词结果;通过依存句法分析对所有短语分词结果进行提取处理,得到各所述待抽取文本对应的短语提取结果;根据所有所述短语提取结果,确定各短语提取结果的词频以及逆文本频率;根据所有所述短语提取结果的词频以及逆文本频率,确定各短语提取结果的词频值;根据所述词频值对所有所述短语提取结果进行筛选,得到所有所述备选峰值短语。3.如权利要求1所述的事件抽取方法,其特征在于,所述根据所述时间词频值,从所有所述备选峰值短语中筛选出事件峰值短语,包括:对所有所述时间词频值进行排序,并确定所述时间词频值中的下四分位数、上四分位数以及四分位距,得到箱形图;根据所述箱形图中所述下四分位数以及所述四分位距,确定区间最大值;将所有所述时间词频值和所述区间最大值进行比较,将所述时间词频值大于所述区间最大值对应的所述备选峰值短语记录为所述事件峰值短语。4.如权利要求1所述的事件抽取方法,其特征在于,所述对所有所述事件峰值短语进行聚类合并,得到至少一个文本事件,包括:获取在同一所述发布日期发布的所有所述待抽取文本内出现的所述事件峰值短语,并构建各所述事件峰值短语处于所述发布日期内的节点;将处于同一所述发布日期内的所有所述节点两两相连,构建第一类边,并确定所述第一类边的第一边权重值;将同时处于相邻两个所述发布日期内且对应于同一个所述事件峰值短语的所述节点相连,构建第二类边,并确定第二边权重值;根据所述第一边权重值、所述第二边权重值以及所述边构建短语节点图,根据所述短语节点图对所有所述事件峰值短语进行聚类合并,得到至少一个所...

【专利技术属性】
技术研发人员:简晓容
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1