事件类型信息处理方法、事件类型识别方法及装置制造方法及图纸

技术编号:24853486 阅读:20 留言:0更新日期:2020-07-10 19:07
本发明专利技术提供一种事件类型信息处理方法、事件类型识别方法及装置。通过获取语料集,根据语料集所属事件类型下的类别关键词对语料集进行频繁序列模式挖掘,得到各类别关键词的上下文序列模式特征和序列模式支持度,基于得到的上下文序列模式特征和序列模式支持度确定语料集中各事件文本属于事件类型的类型权重,并结合预设权重阈值,构建得到各事件类型下的事件文本信息库。将类别关键词在语料集中的出现频率转化为有效的分类依据,确定出事件文本信息库中各事件文本属于对应事件类型的权重,为准确识别其他待识别事件文本的事件类型提供了参照依据,在依据事件文本信息库进行事件类型识别时,能够提高事件类型识别的准确性。

【技术实现步骤摘要】
事件类型信息处理方法、事件类型识别方法及装置
本专利技术涉及计算机自然语言处理
,尤其涉及一种事件类型信息处理方法、事件类型识别方法及装置。
技术介绍
事件类型识别是指从待识别事件文本中抽取出包含特定事件的语句,然后通过判断其特征来识别其所属事件类型。作为事件抽取的一部分,目前进行事件类型识别的方法主要分为基于模式匹配的识别方法、基于扩展触发词表的事件类型识别方法、基于机器学习的事件类型识别方法和基于领域事件词聚类的识别方法,下面具体介绍这几种方法。1.基于模式匹配的识别方法,该方法由两个关键步骤组成:模式获取和事件类型识别,利用不同的模式匹配算法对事件类型识别进行引导,将目标事件与模式进行匹配;2.基于扩展触发词表的事件类型识别方法,事件由事件触发词和描述事件结构的元素构成,基于触发词的事件探测和分类是将含有特定触发词的语句作为候选事件语句并依据触发词对事件进行分类;3.基于机器学习的事件类型识别方法,一般采用最大熵模型和SVM模型,最大熵模型模型简单,不需要特征独立假设,同时速度快,而SVM模型比较适应于小样本的学习和识别;4.基于领域事件词聚类的识别方法可分为两个步骤:领域事件词抽取和聚类事件词发现事件类型,具体实现中可采用领域事件词抽取算法,通过计算其在通用领域和目标领域中的分布情况抽取领域事件词,然后借助语义知识实现领域事件词聚类从而发现事件类型。以上方法存在如下问题:1.基于模式匹配的识别方法需要将模式建立在具体的语言之上,具有固定的文本格式,导致实际应用中不够灵活,需要有语言学家的全程参与,同时也非常耗时,性价比不高;2.基于扩展触发词表的事件类型识别方法存在的问题在于:仅仅依据触发词就判定一个语句是否为某类事件容易出错,因为有些包含触发词的语句并未表述相关事件,同时一些词语在多个事件类型中都可以作为触发词,而通过对非触发词分类扩展触发词表的方法也有缺陷,原因在于非触发词的占比很高,如果对这些词进行分类不仅计算量大,同时容易引入噪音造成正反例不平衡;3.基于机器学习的事件类型识别方法往往会面临正反例严重不平衡的问题,即事件文本和非事件文本的失衡或该类别与非该类别事件文本的失衡,同时,建立二元分类模型无法处理一个事件语句属于多个事件类型的情况;4.基于领域事件词聚类的识别方法对于聚类的结果所代表的类型没有明确的解释,即每个类别所代表的事件标签是不够具体的,这也是无监督学习存在的共同问题。
技术实现思路
本专利技术提供了一种事件类型信息处理方法、事件类型识别方法及装置,能够获得与事件类型准确对应的事件文本信息库,提高事件类型识别的准确度。第一方面,本专利技术提供了一种事件类型信息处理方法,包括:获取至少一个语料集,每个所述语料集中各事件文本属于同一事件类型,并且,每个所述事件文本包含所属事件类型下的类别关键词;基于所属事件类型下各类别关键词对所述语料集进行频繁序列模式挖掘,得到各类别关键词的上下文序列模式特征和对应的序列模式支持度;根据所述上下文序列模式特征和对应的序列模式支持度,确定各所述事件文本对应所属事件类型的类型权重;根据各所述事件文本对应所属事件类型的类型权重和预设权重阈值,创建每个所述事件类型下的事件文本信息库。第二方面,本专利技术提供了一种事件类型识别方法,包括:获取待识别事件文本;计算所述待识别事件文本与各事件文本信息库中事件文本之间的相似度,所述事件文本信息库由上述第一方面提供的事件类型信息处理方法确定;根据所述待识别事件文本与各所述事件文本信息库中事件文本之间的相似度,确定所述待识别事件文本的事件类型识别结果。第三方面,本专利技术提供了一种事件类型识别装置,包括:待识别事件文本获取模块,用于获取待识别事件文本;相似度计算模块,用于计算所述待识别事件文本与各事件文本信息库中事件文本之间的相似度,所述事件文本信息库由上述第一方面提供的事件类型信息处理方法确定;事件类型识别模块,用于根据所述待识别事件文本与各所述事件文本信息库中事件文本之间的相似度,确定所述待识别事件文本的事件类型识别结果。第四方面,本专利技术提供一种计算机存储介质,所述存储介质中存储有至少一条指令或者至少一段程序,所述至少一条指令或者至少一段程序由处理器加载并执行以实现如上述第一方面提供的事件类型信息处理方法或者上述第二方面提供的事件类型识别方法。本专利技术提供的一种事件类型信息处理方法、事件类型识别方法及装置,具有如下技术效果:本专利技术通过获取语料集,根据语料集所属事件类型下的类别关键词对语料集进行频繁序列模式挖掘,得到各类别关键词的上下文序列模式特征和序列模式支持度,基于得到的上下文序列模式特征和序列模式支持度确定语料集中各事件文本属于事件类型的类型权重,并结合预设权重阈值,构建得到各事件类型下的事件文本信息库。本专利技术通过频繁序列模式挖掘的方式抽取各类别关键词的上下文序列模式特征,并基于模式支持度获得事件文本属于对应的事件类型的确信度,从而将类别关键词在语料集中的出现频率转化为有效的分类依据,确定出事件文本信息库中各事件文本属于对应事件类型的权重,为准确识别其他待识别事件文本的事件类型提供了参照依据。在进行事件类型识别时,通过计算待识别事件文本与各事件文本信息库中事件文本之间的相似度,进而基于相似度确定出待识别事件文本的事件类型。由于对事件文本信息库中各事件文本进行了细致的特征和支持度挖掘,细化了每个事件文本属于事件类型的确信度,使得依据事件文本信息库进行事件类型识别时,能够获得准确度更高的识别结果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。图1是本专利技术构思的一实施例的事件类型识别系统的结构图;图2是本专利技术实施例示出的数据共享系统;图3是本专利技术实施例提供的事件类型信息处理方法的流程示意图;图4是本专利技术实施例提供的获取语料集的方法的流程示意图;图5是本专利技术实施例提供的对语料集进行频繁序列模式挖掘的方法的流程示意图;图6是本专利技术实施例提供的确定各事件文本对应所属事件类型的类型权重的方法的流程示意图;图7是本专利技术实施例提供的创建事件文本信息库的方法的流程示意图;图8是本专利技术实施例提供的事件类型识别方法的流程示意图;图9是本专利技术实施例提供的事件类型识别方法的原理图;图10是本专利技术实施例提供的事件类型识别模型的结构示意图;图11是本专利技术实施例提供的事件类型识别装置的结构示意图;图12是本专利技术提供的服务器的一种实施例的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进本文档来自技高网
...

【技术保护点】
1.一种事件类型信息处理方法,其特征在于,包括:/n获取至少一个语料集,每个所述语料集中各事件文本属于同一事件类型,并且,每个所述事件文本包含所属事件类型下的类别关键词;/n基于所属事件类型下各类别关键词对所述语料集进行频繁序列模式挖掘,得到各类别关键词的上下文序列模式特征和对应的序列模式支持度;/n根据所述上下文序列模式特征和对应的序列模式支持度,确定各所述事件文本对应所属事件类型的类型权重;/n根据各所述事件文本对应所属事件类型的类型权重和预设权重阈值,创建每个所述事件类型下的事件文本信息库。/n

【技术特征摘要】
1.一种事件类型信息处理方法,其特征在于,包括:
获取至少一个语料集,每个所述语料集中各事件文本属于同一事件类型,并且,每个所述事件文本包含所属事件类型下的类别关键词;
基于所属事件类型下各类别关键词对所述语料集进行频繁序列模式挖掘,得到各类别关键词的上下文序列模式特征和对应的序列模式支持度;
根据所述上下文序列模式特征和对应的序列模式支持度,确定各所述事件文本对应所属事件类型的类型权重;
根据各所述事件文本对应所属事件类型的类型权重和预设权重阈值,创建每个所述事件类型下的事件文本信息库。


2.根据权利要求1所述的方法,其特征在于,所述获取至少一个语料集,包括:
构建对应不同事件类型的关键词词库,所述关键词词库包括预设数量的类别关键词;
获取包含所述关键词词库中任一类别关键词的事件文本,并根据各所述事件文本的分类标识,将获取的所述事件文本划分正样本或负样本,将正样本和负样本分别作为与所述关键词词库所属事件类型对应的语料集。


3.根据权利要求1所述的方法,其特征在于,所述基于所属事件类型下各类别关键词对所述语料集进行频繁序列模式挖掘,得到各类别关键词的上下文序列模式特征和对应的序列模式支持度,包括:
对每个语料集执行如下处理:
遍历所述语料集中的事件文本,从所述事件文本中提取包含该语料集所属事件类型下各类别关键词的句子,根据提取的句子确定与所述语料集对应的样本数据;
以字序列作为频繁序列模式挖掘对象,在所述样本数据中挖掘满足最小支持度要求的各长度的频繁字序列模式,获得所述类别关键词的上下文序列模式特征和对应的序列模式支持度。


4.根据权利要求3所述的方法,其特征在于,所述以字序列作为频繁序列模式挖掘对象,在所述样本数据中挖掘满足最小支持度要求的各长度的频繁字序列模式,获得所述类别关键词的上下文序列模式特征和对应的序列模式支持度,包括:
去除所述样本数据中各句子包含的预设字符,所述预设字符包括类别关键词;
对去除预设字符的句子进行字元素拆分,获得第一样本数据;
根据所述字元素在所述第一样本数据所包含的句子中的出现次数,确定各字元素的支持度;
去除所述第一样本数据中支持度小于预设支持度阈值的字元素,得到第二样本数据;
将支持度不小于预设支持度阈值的字元素作为前缀,得到前缀集合;
根据所述前缀集合中各前缀在所述第二样本数据中的出现情况,确定与各前缀对应的由接续在该前缀之后的字元素组成的投影数据集;
对每个所述投影数据集执行递归挖掘操作,获得所有满足最小支持度要求的目标前缀和对应的支持度;
将所述目标前缀作为所述类别关键词的上下文序列模式特征,将所述投影数据集中各目标前缀的支持度作为与上下文序列模式特征对应的序列模式支持度。


5.根据权利要求4所述的方法,其特征在于,所述对每个所述投影数据集执行递归挖掘操作,包括:
判断所述投影数据集是否为空集合;
如果所述投影数据集为空集合,则递归返回;
如果所述投影数据集不为空集合,则统计所述投影数据集中各字元素的支持度,判断各字元素的支持度是否满足最小支持度要求;
如果字元素的支持度不满足最小支持度要求,则递归返回;
如果字元素的支持度满足最小支持度要求,则将所述字元素与所述投影数据集对应的前缀合并,得到新前缀,确定新前缀的投影数据集,并对新前缀对应的投影数据集执行递归挖掘,获得所有满足最小支持度...

【专利技术属性】
技术研发人员:刘志煌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1