文本相似度的分析方法、分析装置、存储介质和电子设备制造方法及图纸

技术编号:22418222 阅读:91 留言:0更新日期:2019-10-30 02:02
本公开涉及一种文本相似度的分析方法、分析装置、存储介质和电子设备,该分析方法包括:分别对待分析文本与参考文本进行分词,得到待分析文本词集和参考文本词集;分别基于待分析文本词集中的词语的语义依存关系和参考文本词集中的词语的语义依存关系,构建待分析文本的词语节点有向图和参考文本的词语节点有向图;分别生成待分析文本的词语节点有向图的最大生成树,和参考文本的词语节点有向图的最大生成树;基于待分析文本的词语节点有向图的最大生成树,和参考文本的词语节点有向图的最大生成树计算待分析文本与参考文本的相似度。用于提升文本相似度分析的准确性,使得计算出的待分析文本与参考文本的相似度更加符合实际情况。

【技术实现步骤摘要】
文本相似度的分析方法、分析装置、存储介质和电子设备
本公开涉及数据分析
,具体地,涉及一种文本相似度的分析方法、分析装置、存储介质和电子设备。
技术介绍
自然语言理解即对自然语言的语义分析是很多应用领域的一个关键技术,例如智能设备中的语音助手通过分析人的语音命令做出相应的应答,其中,对于人的语音命令的分析准确度对于语音助手做出应答的准确性至关重要。相关技术中,计算文本相似度是一种常用的自然语言理解的方法,通过计算待分析的自然语言对应的待分析文本与参考文本的相似度,进而借助参考文本以及计算出的相似度理解待分析文本表达的语义。在一种文本相似度的分析方法中,基于文本中词语的相似度计算待分析文本与参考文本的相似度,准确度较低。
技术实现思路
本公开的目的是提供一种文本相似度的分析方法、分析装置、存储介质和电子设备,用于提升文本相似度分析的准确性,使得计算出的待分析文本与参考文本的相似度更加符合实际情况。为了实现上述目的,本公开提供一种文本相似度的分析方法,所述分析方法包括:分别对待分析文本与参考文本进行分词,得到待分析文本词集和参考文本词集;分别基于待分析文本词集中的词语的语义依存关系和参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图;分别生成所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树;基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度。可选地,所述分别基于所述待分析文本词集中的词语的语义依存关系和所述参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图,包括:分别针对所述待分析文本词集和所述参考文本词集中的任意两个词语的组合,标注出所有该组合中的两个词语之间的语义依存关系类别;基于预设的语义依存关系类别与对应该语义依存关系类别的重要度关系表,标注出所有该组合中的两个词语之间的语义依存关系类别的重要度;分别针对所述待分析文本词集和所述参考文本词集中存在的所有所述组合,当该组合中的两个词语之间的语义依存关系类别满足预设条件时,于该组合中的两个词语之间建立边;将该组合中的两个词语之间的语义依存关系类别的重要度作为该组合中的两个词语之间的边的权重,分别生成所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图。可选地,所述基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度,包括:针对所述待分析文本的词语节点有向图的最大生成树中的每一待分析词语节点,确定所述参考文本的词语节点有向图的最大生成树中对应于该待分析词语节点的参考词语节点;基于所述待分析词语节点相对于所述参考词语节点的相同特征和/或差异特征,计算所述待分析文本与所述参考文本的相似度。可选地,所述基于所述待分析词语节点相对于所述参考词语节点的相同特征和/或差异特征,计算所述待分析文本与所述参考文本的相似度,包括:基于所述待分析词语节点与所述参考词语节点的词性、所述待分析词语节点与所述参考词语节点分别位于各自所在的最大生成树中的位置、以及所述待分析词语节点相对于所述参考词语节点的增减特征,计算所述待分析文本与所述参考文本的相似度。可选地,所述基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度,包括:若所述待分析文本的词语节点有向图的最大生成树,或所述参考文本的词语节点有向图的最大生成树不唯一,则计算所述待分析文本的词语节点有向图的每一最大生成树,和所述参考文本的词语节点有向图的每一最大生成树的可选相似度;将值最大的可选相似度作为所述待分析文本与所述参考文本的相似度。本公开实施例的第二方面,提供一种文本相似度的分析装置,所述装置包括:分词模块,被配置为分别对待分析文本与参考文本进行分词,得到待分析文本词集和参考文本词集;有向图构建模块,被配置为分别基于待分析文本词集中的词语的语义依存关系和参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图;最大生成树生成模块,被配置为分别生成所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树;相似度计算模块,被配置为基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度。可选地,所述有向图构建模块包括:语义依存关系类别标注子模块,被配置为分别针对所述待分析文本词集和所述参考文本词集中的任意两个词语的组合,标注出所有该组合中的两个词语之间的语义依存关系类别;重要度标注子模块,被配置为基于预设的语义依存关系类别与对应该语义依存关系类别的重要度关系表,标注出所有该组合中的两个词语之间的语义依存关系类别的重要度;建边子模块,被配置为分别针对所述待分析文本词集和所述参考文本词集中存在的所有所述组合,当该组合中的两个词语之间的语义依存关系类别满足预设条件时,于该组合中的两个词语之间建立边;权重确定子模块,被配置为将该组合中的两个词语之间的语义依存关系类别的重要度作为该组合中的两个词语之间的边的权重,分别生成所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图。可选地,所述相似度计算模块包括:词语节点确定子模块,被配置为针对所述待分析文本的词语节点有向图的最大生成树中的每一待分析词语节点,确定所述参考文本的词语节点有向图的最大生成树中对应于该待分析词语节点的参考词语节点;相似度计算子模块,被配置为基于所述待分析词语节点相对于所述参考词语节点的相同特征和/或差异特征,计算所述待分析文本与所述参考文本的相似度。可选地,所述相似度计算子模块被配置为:基于所述待分析词语节点与所述参考词语节点的词性、所述待分析词语节点与所述参考词语节点分别位于各自所在的最大生成树中的位置、以及所述待分析词语节点相对于所述参考词语节点的增减特征,计算所述待分析文本与所述参考文本的相似度。可选地,所述相似度计算模块包括:可选相似度确定子模块,被配置为在所述待分析文本的词语节点有向图的最大生成树,或所述参考文本的词语节点有向图的最大生成树不唯一时,计算所述待分析文本的词语节点有向图的每一最大生成树,和所述参考文本的词语节点有向图的每一最大生成树的可选相似度;相似度确定选择子模块,被配置为将值最大的可选相似度作为所述待分析文本与所述参考文本的相似度。本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一项所述方法的步骤。本公开实施例的第四方面,提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现上述第一方面中任一项所述方法的步骤。通过上述技术方案,分别基于待分析文本词集中的词语的语义依存关系和参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图,然后分本文档来自技高网...

【技术保护点】
1.一种文本相似度的分析方法,其特征在于,所述分析方法包括:分别对待分析文本与参考文本进行分词,得到待分析文本词集和参考文本词集;分别基于待分析文本词集中的词语的语义依存关系和参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图;分别生成所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树;基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度。

【技术特征摘要】
1.一种文本相似度的分析方法,其特征在于,所述分析方法包括:分别对待分析文本与参考文本进行分词,得到待分析文本词集和参考文本词集;分别基于待分析文本词集中的词语的语义依存关系和参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图;分别生成所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树;基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度。2.根据权利要求1所述的分析方法,其特征在于,所述分别基于所述待分析文本词集中的词语的语义依存关系和所述参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图,包括:分别针对所述待分析文本词集和所述参考文本词集中的任意两个词语的组合,标注出所有该组合中的两个词语之间的语义依存关系类别;基于预设的语义依存关系类别与对应该语义依存关系类别的重要度关系表,标注出所有该组合中的两个词语之间的语义依存关系类别的重要度;分别针对所述待分析文本词集和所述参考文本词集中存在的所有所述组合,当该组合中的两个词语之间的语义依存关系类别满足预设条件时,于该组合中的两个词语之间建立边;将该组合中的两个词语之间的语义依存关系类别的重要度作为该组合中的两个词语之间的边的权重,分别生成所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图。3.根据权利要求1所述的分析方法,其特征在于,所述基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度,包括:针对所述待分析文本的词语节点有向图的最大生成树中的每一待分析词语节点,确定所述参考文本的词语节点有向图的最大生成树中对应于该待分析词语节点的参考词语节点;基于所述待分析词语节点相对于所述参考词语节点的相同特征和/或差异特征,计算所述待分析文本与所述参考文本的相似度。4.根据权利要求3所述的分析方法,其特征在于,所述基于所述待分析词语节点相对于所述参考词语节点的相同特征和/或差异特征,计算所述待分析文本与所述参考文本的相似度,包括:基于所述待分析词语节点与所述参考词语节点的词性、所述待分析词语节点与所述参考词语节点分别位于各自所在的最大生成树中的位置、以及所述待分析词语节点相对于所述参考词语节点的增减特征,计算所述待分析文本与所述参考文本的相似度。5.根据权利要求1所述的分析方法,其特征在于,所述基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本...

【专利技术属性】
技术研发人员:张永哲刘作坤
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1