文本信息的主题内容识别方法及装置制造方法及图纸

技术编号:14290638 阅读:52 留言:0更新日期:2016-12-25 20:55
本公开是关于一种文本信息的主题内容识别方法及装置。方法包括:获取文本信息;提取文本信息中的事件,并构建事件集合;根据事件集合在事件时序逻辑图中进行查询,得到至少一个事件时序逻辑链,其中,事件时序逻辑链由事件集合中逻辑关联的事件、按照时序逻辑串联而成;确定每个事件时序逻辑链的受关注度;从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由后到前的顺序获取第一预定数量的事件,并根据第一预定数量的事件识别出文本信息的主题内容。由此,可实现文本主题的智能化识别,并且所识别出的主题内容具有较高的准确性和可靠性,能够代表该文本信息的核心内容,从而能够为相关的文本信息处理提供准确依据。

【技术实现步骤摘要】

本公开涉及自然语言处理领域,尤其涉及一种文本信息的主题内容识别方法及装置
技术介绍
实际生活中,用户时常利用短信应用或其他社交软件来传输文本消息,以进行对话沟通。而在用户的对话场景中,对话往往会围绕一个核心的主题。如何从用户的对话中识别出该主题成为当前自然语言处理领域的一个研究方向。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种文本信息的主题内容识别方法及装置。根据本公开实施例的第一方面,提供一种文本信息的主题内容识别方法,包括:获取文本信息;提取所述文本信息中的事件,并构建事件集合;根据所述事件集合在事件时序逻辑图中进行查询,得到至少一个事件时序逻辑链,其中,所述事件时序逻辑链由所述事件集合中逻辑关联的事件、按照时序逻辑串联而成;确定每个所述事件时序逻辑链的受关注度;从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由后到前的顺序获取第一预定数量的事件,并根据所述第一预定数量的事件识别出所述文本信息的主题内容。可选地,所述事件时序逻辑图是通过以下方式构建的:获取文本语料库;提取所述文本语料库中的事件,并将所述文本语料库中的每个事件作为基础事件,其中,每个所述基础事件作为事件时序逻辑图的节点;针对每个所述基础事件,确定所述基础事件作为事件时序逻辑链的首事件的发生概率,以及所述基础事件的关联事件;对所述基础事件与所述基础事件的各个关联事件标记时序逻辑关系,并按照所述时序逻辑关系,在所述基础事件所对应的节点与所述基础事件的各个关联事件所对应的节点之间添加指向标记,其中,所述指向标记的起始事件为时序逻辑在前的事件,所述指向标记的目标事件为时序逻辑在后的事件;针对每个所述指向标记,确定所述指向标记的起始事件与目标事件之间的转移概率,并将所述转移概率作为所述指向标记的权重。可选地,所述确定所述基础事件作为事件时序逻辑链的首事件的发生概率,包括:P(Vb/start)=Count(Vb,start)/N1其中,Vb表示一基础事件;P(Vb/start)表示基础事件Vb作为事件时序逻辑链的首事件的发生概率;Count(Vb,start)表示在所述文本语料库中,基础事件Vb作为事件时序逻辑链的首事件发生的频率;N1表示各个基础事件分别作为事件时序逻辑链的首事件发生的频率之和,并且B表示基础事件总数。可选地,所述确定所述基础事件的关联事件,包括:确定所述基础事件与候选事件之间的共现频率,其中,所述候选事件包括所述文本语料库中除所述基础事件之外的事件;按照共现频率从大到小的顺序,将从共现频率最大的候选事件起的第二预定数量的候选事件确定为是所述基础事件的关联事件。可选地,所述确定所述指向标记的起始事件与目标事件之间的转移概率,包括:获取所述起始事件所指向的全部事件;按照在所述文本语料库中,所述起始事件与所述起始事件所指向的各个事件之间的共现频率,确定所述指向标记的起始事件与目标事件之间的转移概率。可选地,所述按照在所述文本语料库中,所述起始事件与所述起始事件所指向的各个事件之间的共现频率,确定所述指向标记的起始事件与目标事件之间的转移概率,包括:P(Vk/Vi)=Count(Vk,Vi)/N2其中,Vi表示所述指向标记的起始事件;Vk表示所述指向标记的目标事件;P(Vk/Vi)表示所述起始事件Vi与所述目标事件Vk之间的转移概率;Count(Vk,Vi)表示在所述文本语料库中,所述起始事件Vi与所述目标事件Vk之间的共现频率;N2表示在所述文本语料库中,所述起始事件Vi与所述起始事件Vi所指向的各个事件之间的共现频率的总和。可选地,所述确定每个所述事件时序逻辑链的受关注度,包括:针对每个所述事件时序逻辑链,根据所述事件时序逻辑链中的首事件的发生概率、以及所述事件时序逻辑链中时序逻辑相邻的两个事件之间的转移概率,确定所述事件时序逻辑链的发生概率;根据所述事件时序逻辑链的发生概率、以及所述事件时序逻辑链中的事件总数,确定所述事件时序逻辑链的受关注度。可选地,所述事件时序逻辑链的受关注度通过以下方式来确定:D(A1→A2…→An)=-n/logt(P(A1→A2…→An))其中,A1→A2…→An表示事件时序逻辑链;A1、A2…、An表示A1→A2…→An事件时序逻辑链中按照时序逻辑从前到后排列的各个事件;n表示事件时序逻辑链A1→A2…→An中的事件总数;D(A1→A2…→An)表示事件时序逻辑链A1→A2…→An的受关注度;P(A1→A2…→An)表示事件时序逻辑链A1→A2…→An的发生概率,该P(A1→A2…→An)为A1→A2…→An事件时序逻辑链中首事件A1的发生概率、以及该A1→A2…→An事件时序逻辑链中时序逻辑相邻的两个事件之间的转移概率之间的乘积;t>1。可选地,所述从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由后到前的顺序获取第一预定数量的事件,并根据所述第一预定数量的事件识别出所述文本信息的主题内容,包括:从受关注度最高的事件时序逻辑链中,获取时序逻辑排名最后的事件,并将所述时序逻辑排名最后的事件识别为是所述文本信息的主题内容。根据本公开实施例的第二方面,提供一种文本信息的主题内容识别装置,包括:文本信息获取模块,被配置为获取文本信息;事件提取模块,被配置为提取所述文本信息中的事件,并构建事件集合;事件时序逻辑链获取模块,被配置为根据所述事件集合在事件时序逻辑图中进行查询,得到至少一个事件时序逻辑链,其中,所述事件时序逻辑链由所述事件集合中逻辑关联的事件、按照时序逻辑串联而成;受关注度确定模块,被配置为确定每个所述事件时序逻辑链的受关注度;主题内容识别模块,被配置为从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由后到前的顺序获取第一预定数量的事件,并根据所述第一预定数量的事件识别出所述文本信息的主题内容。可选地,所述事件时序逻辑图是通过事件时序逻辑图构建模块构建的,并且所述事件时序逻辑图构建模块包括:文本语料库获取子模块,被配置为获取文本语料库;第一事件获取子模块,被配置为提取所述文本语料库中的事件,并将所述文本语料库中的每个事件作为基础事件,其中,每个所述基础事件作为事件时序逻辑图的节点;首事件发生概率确定子模块,被配置为针对每个所述基础事件,确定所述基础事件作为事件时序逻辑链的首事件的发生概率;第一关联事件确定子模块,被配置为针对每个所述基础事件,确定所述基础事件的关联事件;时序逻辑关系标记子模块,被配置为对所述基础事件与所述基础事件的各个关联事件标记时序逻辑关系,并按照所述时序逻辑关系,在所述基础事件所对应的节点与所述基础事件的各个关联事件所对应的节点之间添加指向标记,其中,所述指向标记的起始事件为时序逻辑在前的事件,所述指向标记的目标事件为时序逻辑在后的事件;第一转移概率确定子模块,被配置为针对每个所述指向标记,确定所述指向标记的起始事件与目标事件之间的转移概率,并将所述转移概率作为所述指向标记的权重。可选地,所述首事件发生概率确定子模块被配置为通过以下方式确定所述基础事件作为事件时序逻辑链的首事件的发生概率:P(Vb/start)=Count(Vb,start)/N1其中,Vb表示一基础事件;P(Vb/start)表示基础事件Vb作为本文档来自技高网...
文本信息的主题内容识别方法及装置

【技术保护点】
一种文本信息的主题内容识别方法,其特征在于,包括:获取文本信息;提取所述文本信息中的事件,并构建事件集合;根据所述事件集合在事件时序逻辑图中进行查询,得到至少一个事件时序逻辑链,其中,所述事件时序逻辑链由所述事件集合中逻辑关联的事件、按照时序逻辑串联而成;确定每个所述事件时序逻辑链的受关注度;从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由后到前的顺序获取第一预定数量的事件,并根据所述第一预定数量的事件识别出所述文本信息的主题内容。

【技术特征摘要】
1.一种文本信息的主题内容识别方法,其特征在于,包括:获取文本信息;提取所述文本信息中的事件,并构建事件集合;根据所述事件集合在事件时序逻辑图中进行查询,得到至少一个事件时序逻辑链,其中,所述事件时序逻辑链由所述事件集合中逻辑关联的事件、按照时序逻辑串联而成;确定每个所述事件时序逻辑链的受关注度;从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由后到前的顺序获取第一预定数量的事件,并根据所述第一预定数量的事件识别出所述文本信息的主题内容。2.根据权利要求1所述的方法,其特征在于,所述事件时序逻辑图是通过以下方式构建的:获取文本语料库;提取所述文本语料库中的事件,并将所述文本语料库中的每个事件作为基础事件,其中,每个所述基础事件作为事件时序逻辑图的节点;针对每个所述基础事件,确定所述基础事件作为事件时序逻辑链的首事件的发生概率,以及所述基础事件的关联事件;对所述基础事件与所述基础事件的各个关联事件标记时序逻辑关系,并按照所述时序逻辑关系,在所述基础事件所对应的节点与所述基础事件的各个关联事件所对应的节点之间添加指向标记,其中,所述指向标记的起始事件为时序逻辑在前的事件,所述指向标记的目标事件为时序逻辑在后的事件;针对每个所述指向标记,确定所述指向标记的起始事件与目标事件之间的转移概率,并将所述转移概率作为所述指向标记的权重。3.根据权利要求2所述的方法,其特征在于,所述确定所述基础事件作为事件时序逻辑链的首事件的发生概率,包括:P(Vb/start)=Count(Vb,start)/N1其中,Vb表示一基础事件;P(Vb/start)表示基础事件Vb作为事件时序逻辑链的首事件的发生概率;Count(Vb,start)表示在所述文本语料库中,基础事件Vb作为事件时序逻辑链的首事件发生的频率;N1表示各个基础事件分别作为事件时序逻辑链的首事件发生的频率之和,并且B表示基础事件总数。4.根据权利要求2所述的方法,其特征在于,所述确定所述基础事件的关联事件,包括:确定所述基础事件与候选事件之间的共现频率,其中,所述候选事件包括所述文本语料库中除所述基础事件之外的事件;按照共现频率从大到小的顺序,将从共现频率最大的候选事件起的第二预定数量的候选事件确定为是所述基础事件的关联事件。5.根据权利要求2所述的方法,其特征在于,所述确定所述指向标记的起始事件与目标事件之间的转移概率,包括:获取所述起始事件所指向的全部事件;按照在所述文本语料库中,所述起始事件与所述起始事件所指向的各个事件之间的共现频率,确定所述指向标记的起始事件与目标事件之间的转移概率。6.根据权利要求5所述的方法,其特征在于,所述按照在所述文本语料库中,所述起始事件与所述起始事件所指向的各个事件之间的共现频率,确定所述指向标记的起始事件与目标事件之间的转移概率,包括:P(Vk/Vi)=Count(Vk,Vi)/N2其中,Vi表示所述指向标记的起始事件;Vk表示所述指向标记的目标事件;P(Vk/Vi)表示所述起始事件Vi与所述目标事件Vk之间的转移概率;Count(Vk,Vi)表示在所述文本语料库中,所述起始事件Vi与所述目标事件Vk之间的共现频率;N2表示在所述文本语料库中,所述起始事件Vi与所述起始事件Vi所指向的各个事件之间的共现频率的总和。7.根据权利要求1-6中任一项所述的方法,其特征在于,所述确定每个所述事件时序逻辑链的受关注度,包括:针对每个所述事件时序逻辑链,根据所述事件时序逻辑链中的首事件的发生概率、以及所述事件时序逻辑链中时序逻辑相邻的两个事件之间的转移概率,确定所述事件时序逻辑链的发生概率;根据所述事件时序逻辑链的发生概率、以及所述事件时序逻辑链中的事件总数,确定所述事件时序逻辑链的受关注度。8.根据权利要求7所述的方法,其特征在于,所述事件时序逻辑链的受关注度通过以下方式来确定:D(A1→A2…→An)=-n/logt(P(A1→A2…→An))其中,A1→A2…→An表示事件时序逻辑链;A1、A2…、An表示A1→A2…→An事件时序逻辑链中按照时序逻辑从前到后排列的各个事件;n表示事件时序逻辑链A1→A2…→An中的事件总数;D(A1→A2…→An)表示事件时序逻辑链A1→A2…→An的受关注度;P(A1→A2…→An)表示事件时序逻辑链A1→A2…→An的发生概率,该P(A1→A2…→An)为A1→A2…→An事件时序逻辑链中首事件A1的发生概率、以及该A1→A2…→An事件时序逻辑链中时序逻辑相邻的两个事件之间的转移概率之间的乘积;t>1。9.根据权利要求1-6中任一项所述的方法,其特征在于,所述从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由后到前的顺序获取第一预定数量的事件,并根据所述第一预定数量的事件识别出所述文本信息的主题内容,包括:从受关注度最高的事件时序逻辑链中,获取时序逻辑排名最后的事件,并将所述时序逻辑排名最后的事件识别为是所述文本信息的主题内容。10.一种文本信息的主题内容识别装置,其特征在于,包括:文本信息获取模块,被配置为获取文本信息;事件提取模块,被配置为提取所述文本信息中的事件,并构建事件集合;事件时序逻辑链获取模块,被配置为根据所述事件集合在事件时序逻辑图中进行查询,得到至少一个事件时序逻辑链,其中,所述事件时序逻辑链由所述事件集合中逻辑关联的事件、按照时序逻辑串联而成;受关注度确定模块,被配置为确定每个所述事件时序逻辑链的受关注度;主题内容识别模块,被配置为从受关注度最高的事件时序逻辑链中,按照时序逻辑排名由...

【专利技术属性】
技术研发人员:汪平仄陈志军李明浩
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1