System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及文本处理,特别是涉及一种中心事件的获取系统。
技术介绍
1、随着互联网技术的不断发展,各类文本数量呈现指数型增长,例如新闻本文、论文文本等,如何从大量文本中筛选出中心事件即文本中最核心的事件成为自然语言处理领域中的一个重要研究方向,然而,当文本中事件过多时,如何从大量文本中抽取中心事件成为热门研究话题,从大量文字中有效筛选出中心事件在智能问答、信息检索等领域中有着重要的应用。
2、现有技术中,确定中心事件的方法为:将文本按照规则进行切分,获取文本中的关键词和关键词对应的权重,将切分后的文本中包括的关键词进行阈值设置,获取到目标文本,从目标文本中获取到的事件为中心事件;
3、综上,确定中心事件的方法存在的问题:未从事件不同维度特征对事件进行判断,同时未考虑对获取到的中心事件的数量进行限制,降低了获取到的中心事件的准确度。
技术实现思路
1、针对上述技术问题,本专利技术采用的技术方案为:一种中心事件的获取系统,系统包括:处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:
2、s100,根据目标文本,获取目标文本对应的核心事件列表l={l1,……,lv,……,lb},lv为第v个核心事件,v=1……b,b为核心事件的数量。
3、s200,根据l,获取l对应的目标优先级列表p={p1,……,pv,……,pb},pv为lv对应的目标优先级。
4、s300,获取第一样本文本列表k1={k11,…
5、s400,根据k1,获取k1对应的第一中间事件集ek1={ek11,……,ek1c,……,ek1ab},ek1c={ek1c1,……,ek1cx,……,ek1cw(μ)},ek1cx为k1c对应的第一中间事件列表中的第x个第一中间事件,x=1……w(μ),w(μ)为k1c对应的第一中间事件列表中第一中间事件的数量。
6、s500,根据ek1,获取ek1对应的第一最终优先级集fk1={fk11,……,fk1c,……,fk1ab},fk1c={fk1c1,……,fk1cx,……,fk1cw(μ)},fk1cx为ek1cx对应的第一最终优先级。
7、s600,当fk1cx为fk1c中最大的第一最终优先级时,获取第一预设优先级阈值p1,其中,第一预设优先级阈值p1符合如下条件:
8、p1=ξ1×(∑(ab)c=1fk1cx/(ab))+(1-ξ1-ξ2)×(∑(ab)c=1(1-pek1cx)/(ab)),其中,
9、ξ1为第一预设参数,ξ2为第二预设参数,pek1cx为ek1cx与k1c中真实的中心事件之间的相似度。
10、s700,根据p1和k2,获取k2对应的目标数量列表gk2={gk21,……,gk2p,……,gk2cd},gk2p为k2p对应的目标数量,其中,所述目标数量为k2p对应的第二最终优先级列表中第二最终优先级不小于p1的数量,所述第二最终优先级为第二样本文本中第二中间事件对应的优先级。
11、s800,当gk2p≤1时,获取p0=p1,其中,p0为预设的优先级阈值。
12、s900,当存在gk2p>1时,将k1中的第一样本文本和k2中的第二样本文本进行随机交叉互换重复执行s300~s700直到gk2p不大于1以获取到p0。
13、s1000,根据p和p0,获取中心事件,其中,当pv≥p0时,获取pv对应的核心事件为中心事件。
14、本专利技术与现有技术相比具有明显的有益效果,借由上述技术方案,本专利技术提供的一种中心事件的获取系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
15、一种中心事件的获取系统,系统包括:处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:根据目标文本,获取目标文本对应的核心事件列表,根据核心事件列表,获取核心事件列表对应的目标优先级列表,获取第一样本文本列表和第二样本文本列表,根据第一样本文本,获取第一样本文本列表对应的第一中间事件集,根据第一中间事件集,获取第一中间事件集对应的第一最终优先级集,根据第一最终优先级集,获取第一预设优先级阈值,根据第二样本文本列表和第一预设优先级阈值,获取第二样本文本列表对应的目标数量列表,对目标数量列表进行判断,不断调整第一样本文本列表和第二样本文本列表,从而获取预设的优先级阈值,根据目标优先级和预设的优先级阈值,获取中心事件;本专利技术将事件对应的关系图的特征信息与事件对应的文本的特征信息相结合,获取事件对应的优先级,基于不同的样本数据对获取到的中心事件的数量进行限制,使得获取到的中心事件更加准确。
16、上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
本文档来自技高网...【技术保护点】
1.一种中心事件的获取系统,其特征在于,所述系统包括:处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:
2.根据权利要求1所述的中心事件的获取系统,其特征在于,在S100中还包括如下步骤:
3.根据权利要求1所述的中心事件的获取系统,其特征在于,在S200中通过如下步骤获取Pv:
4.根据权利要求1所述的中心事件的获取系统,其特征在于,所述第一样本文本为从数据库中获取到的用于训练的文本。
5.根据权利要求1所述的中心事件的获取系统,其特征在于,所述第二样本文本为从数据库中获取到的用于测试的文本。
6.根据权利要求1所述的中心事件的获取系统,其特征在于,所述第一中间事件的获取方式与核心事件的获取方式一致。
7.根据权利要求1所述的中心事件的获取系统,其特征在于,所述第一最终优先级的获取方式与目标优先级的获取方式一致。
8.根据权利要求1所述的中心事件的获取系统,其特征在于,所述第二中间事件的获取方式与第一中间事件的获取方式一致。
9.根据权利要求1所述的中
...【技术特征摘要】
1.一种中心事件的获取系统,其特征在于,所述系统包括:处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:
2.根据权利要求1所述的中心事件的获取系统,其特征在于,在s100中还包括如下步骤:
3.根据权利要求1所述的中心事件的获取系统,其特征在于,在s200中通过如下步骤获取pv:
4.根据权利要求1所述的中心事件的获取系统,其特征在于,所述第一样本文本为从数据库中获取到的用于训练的文本。
5.根据权利要求1所述的中心事件的获取系统,其特征在于,所述第二样本文...
【专利技术属性】
技术研发人员:张正义,傅晓航,朱杰,林方,
申请(专利权)人:中科雨辰科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。