事件类型信息处理方法、事件类型识别方法及装置制造方法及图纸

技术编号：24853486 阅读：20 留言：0更新日期：2020-07-10 19:07

本发明专利技术提供一种事件类型信息处理方法、事件类型识别方法及装置。通过获取语料集，根据语料集所属事件类型下的类别关键词对语料集进行频繁序列模式挖掘，得到各类别关键词的上下文序列模式特征和序列模式支持度，基于得到的上下文序列模式特征和序列模式支持度确定语料集中各事件文本属于事件类型的类型权重，并结合预设权重阈值，构建得到各事件类型下的事件文本信息库。将类别关键词在语料集中的出现频率转化为有效的分类依据，确定出事件文本信息库中各事件文本属于对应事件类型的权重，为准确识别其他待识别事件文本的事件类型提供了参照依据，在依据事件文本信息库进行事件类型识别时，能够提高事件类型识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
事件类型信息处理方法、事件类型识别方法及装置
本专利技术涉及计算机自然语言处理
，尤其涉及一种事件类型信息处理方法、事件类型识别方法及装置。
技术介绍
事件类型识别是指从待识别事件文本中抽取出包含特定事件的语句，然后通过判断其特征来识别其所属事件类型。作为事件抽取的一部分，目前进行事件类型识别的方法主要分为基于模式匹配的识别方法、基于扩展触发词表的事件类型识别方法、基于机器学习的事件类型识别方法和基于领域事件词聚类的识别方法，下面具体介绍这几种方法。1.基于模式匹配的识别方法，该方法由两个关键步骤组成：模式获取和事件类型识别，利用不同的模式匹配算法对事件类型识别进行引导，将目标事件与模式进行匹配；2.基于扩展触发词表的事件类型识别方法，事件由事件触发词和描述事件结构的元素构成，基于触发词的事件探测和分类是将含有特定触发词的语句作为候选事件语句并依据触发词对事件进行分类；3.基于机器学习的事件类型识别方法，一般采用最大熵模型和SVM模型，最大熵模型模型简单，不需要特征独立假设，同时速度快，而SVM模型比较适应于小样本的学习和识别；4.基于领域事件词聚类的识别方法可分为两个步骤：领域事件词抽取和聚类事件词发现事件类型，具体实现中可采用领域事件词抽取算法，通过计算其在通用领域和目标领域中的分布情况抽取领域事件词，然后借助语义知识实现领域事件词聚类从而发现事件类型。以上方法存在如下问题：1.基于模式匹配的识别方法需要将模式建立在具体的语言之上，具有固定的文本格式，导致实际...

【技术保护点】
1.一种事件类型信息处理方法，其特征在于，包括：/n获取至少一个语料集，每个所述语料集中各事件文本属于同一事件类型，并且，每个所述事件文本包含所属事件类型下的类别关键词；/n基于所属事件类型下各类别关键词对所述语料集进行频繁序列模式挖掘，得到各类别关键词的上下文序列模式特征和对应的序列模式支持度；/n根据所述上下文序列模式特征和对应的序列模式支持度，确定各所述事件文本对应所属事件类型的类型权重；/n根据各所述事件文本对应所属事件类型的类型权重和预设权重阈值，创建每个所述事件类型下的事件文本信息库。/n

【技术特征摘要】
1.一种事件类型信息处理方法，其特征在于，包括：
获取至少一个语料集，每个所述语料集中各事件文本属于同一事件类型，并且，每个所述事件文本包含所属事件类型下的类别关键词；
基于所属事件类型下各类别关键词对所述语料集进行频繁序列模式挖掘，得到各类别关键词的上下文序列模式特征和对应的序列模式支持度；
根据所述上下文序列模式特征和对应的序列模式支持度，确定各所述事件文本对应所属事件类型的类型权重；
根据各所述事件文本对应所属事件类型的类型权重和预设权重阈值，创建每个所述事件类型下的事件文本信息库。

2.根据权利要求1所述的方法，其特征在于，所述获取至少一个语料集，包括：
构建对应不同事件类型的关键词词库，所述关键词词库包括预设数量的类别关键词；
获取包含所述关键词词库中任一类别关键词的事件文本，并根据各所述事件文本的分类标识，将获取的所述事件文本划分正样本或负样本，将正样本和负样本分别作为与所述关键词词库所属事件类型对应的语料集。

3.根据权利要求1所述的方法，其特征在于，所述基于所属事件类型下各类别关键词对所述语料集进行频繁序列模式挖掘，得到各类别关键词的上下文序列模式特征和对应的序列模式支持度，包括：
对每个语料集执行如下处理：
遍历所述语料集中的事件文本，从所述事件文本中提取包含该语料集所属事件类型下各类别关键词的句子，根据提取的句子确定与所述语料集对应的样本数据；
以字序列作为频繁序列模式挖掘对象，在所述样本数据中挖掘满足最小支持度要求的各长度的频繁字序列模式，获得所述类别关键词的上下文序列模式特征和对应的序列模式支持度。

4.根据权利要求3所述的方法，其特征在于，所述以字序列作为频繁序列模式挖掘对象，在所述样本数据中挖掘满足最小支持度要求的各长度的频繁字序列模式，获得所述类别关键词的上下文序列模式特征和对应的序列模式支持度，包括：
去除所述样本数据中各句子包含的预设字符，所述预设字符包括类别关键词；
对去除预设字符的句子进行字元素拆分，获得第一样本数据；
根据所述字元素在所述第一样本数据所包含的句子中的出现次数，确定各字元素的支持度；
去除所述第一样本数据中支持度小于预设支持度阈值的字元素，得到第二样本数据；
将支持度不小于预设支持度阈值的字元素作为前缀，得到前缀集合；
根据所述前缀集合中各前缀在所述第二样本数据中的出现情况，确定与各前缀对应的由接续在该前缀之后的字元素组成的投影数据集；
对每个所述投影数据集执行递归挖掘操作，获得所有满足最小支持度要求的目标前缀和对应的支持度；
将所述目标前缀作为所述类别关键词的上下文序列模式特征，将所述投影数据集中各目标前缀的支持度作为与上下文序列模式特征对应的序列模式支持度。

5.根据权利要求4所述的方法，其特征在于，所述对每个所述投影数据集执行递归挖掘操作，包括：
判断所述投影数据集是否为空集合；
如果所述投影数据集为空集合，则递归返回；
如果所述投影数据集不为空集合，则统计所述投影数据集中各字元素的支持度，判断各字元素的支持度是否满足最小支持度要求；
如果字元素的支持度不满足最小支持度要求，则递归返回；
如果字元素的支持度满足最小支持度要求，则将所述字元素与所述投影数据集对应的前缀合并，得到新前缀，确定新前缀的投影数据集，并对新前缀对应的投影数据集执行递归挖掘，获得所有满足最小支持度...

【专利技术属性】
技术研发人员：刘志煌，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人