【技术实现步骤摘要】
事件图谱的构建方法、装置及电子设备
本专利技术涉及信息挖掘
,尤其是涉及一种事件图谱的构建方法、装置及电子设备。
技术介绍
随着互联网的发展,当出现某个新闻事件(如火灾事件)时,关于该事件的报道文本数据规模大且分散,这给追踪查询新闻事件带来了很大的障碍。目前通过构建事件图谱实现事件追踪的方式主要有如下两种。一种是先抽取多个元事件,再抽取各元事件之间的关系。然而事件关系抽取十分复杂,传统的基于模板的关系抽取拓展性差,基于监督学习的方法需要大量标注好的训练样本,非常耗时。另一种主要通过多个复杂的公式定义不同元事件之间的关系。为了定义不同的关系需要调试不同的参数,这样不但会在定义关系过程中会花费较多时间,而且定义的关系是有限的,很难刻画更复杂的关系。因此,采用上述方式构建事件图谱十分复杂,导致事件追踪能力较差,使得用户获取事件信息的效率不高。
技术实现思路
本专利技术的目的在于提供事件图谱的构建方法、装置及电子设备,能够减小生成事件图谱的复杂度,提升事件图谱的获取效率和事件追踪能力。 >本专利技术提供的事本文档来自技高网...
【技术保护点】
1.一种事件图谱的构建方法,其特征在于,包括:/n获取目标事件的多个目标事件文本;/n对所述目标事件文本进行元事件抽取,得到多个原始元事件;所述原始元事件包括第一事件关键词;/n基于预设的事理图谱和所述第一事件关键词从所有所述原始元事件中确定与所述事理图谱匹配的多个目标元事件;其中,所述事理图谱包括按照事件因果关系和/或事件时序关系连接的事件;/n根据所述目标元事件对所述事理图谱中的事件进行更新,得到所述目标事件文本对应的事件图谱。/n
【技术特征摘要】
1.一种事件图谱的构建方法,其特征在于,包括:
获取目标事件的多个目标事件文本;
对所述目标事件文本进行元事件抽取,得到多个原始元事件;所述原始元事件包括第一事件关键词;
基于预设的事理图谱和所述第一事件关键词从所有所述原始元事件中确定与所述事理图谱匹配的多个目标元事件;其中,所述事理图谱包括按照事件因果关系和/或事件时序关系连接的事件;
根据所述目标元事件对所述事理图谱中的事件进行更新,得到所述目标事件文本对应的事件图谱。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标事件文本进行元事件抽取,得到多个原始元事件的步骤,包括:
根据预设的文本分词方法对所述目标事件文本进行拆解,得到所述目标事件文本对应的多个分词;其中,所述预设的文本分词方法包括:基于词典的文本分词方法、基于统计的文本分词方法或基于机器学习的文本分词方法;
对多个所述分词中的停用词进行过滤,将过滤后的分词确定为关键词;
采用机器学习算法对各所述关键词进行抽取,得到多个原始元事件;其中,所述机器学习算法包括以下任意一种:支持向量机、条件随机场和隐马尔科夫模型;所述原始元事件包括所述第一事件关键词和事件元素,且所述事件元素包括以下一种或多种:时间元素、地点元素、角色元素、事件主题元素和动作元素。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对所述原始元事件进行关联,生成所述目标事件文本对应的元事件图谱。
4.根据权利要求1所述的方法,其特征在于,所述事理图谱包括第二事件关键词;所述基于预设的事理图谱和所述第一事件关键词从所有所述原始元事件中确定与所述事理图谱匹配的多个目标元事件的步骤,包括:
通过word2vec模型对所述第一事件关键词进行映射,得到所述第一事件关键词对应的第一词向量;
通过所述word2vec模型对所述第二事件关键词进行映射,得到所述第二事件关键词对应的第二词向量;
计算多个所述第一词向量和多个所述第二词向量两两之间的相似度;
基于计算得到的相似度和预设的相似度阈值,从所有所述原始元事件中确定与所述事理图谱匹配的多个目标元事件;其中,每个所述目标元事件与所述事理图谱中的一个所述第二事件关键词匹配。
5.根据权利要求4所述的方法,其特征在于,所述基于计算得到的相似度和预设的相似度阈值,从所有所述原始元事件中确定与所述事理图谱匹配的多个目标元事件的步骤,包括:
基于计算得到的相似度和预设的相似度阈值,确定具有相似关系的第一词向量和第二词向量;其中,具有相似关系的第一词向量和第二词向量的相似度大于所述相似度阈值;
对于一组具有相似关系的第一词向量和第二词向量,根据所述第一事件关键词...
【专利技术属性】
技术研发人员:李娟慧,吴信东,张杰,
申请(专利权)人:北京明略软件系统有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。