【技术实现步骤摘要】
文本相似度的分析方法、分析装置、存储介质和电子设备
本公开涉及数据分析
,具体地,涉及一种文本相似度的分析方法、分析装置、存储介质和电子设备。
技术介绍
自然语言理解即对自然语言的语义分析是很多应用领域的一个关键技术,例如智能设备中的语音助手通过分析人的语音命令做出相应的应答,其中,对于人的语音命令的分析准确度对于语音助手做出应答的准确性至关重要。相关技术中,计算文本相似度是一种常用的自然语言理解的方法,通过计算待分析的自然语言对应的待分析文本与参考文本的相似度,进而借助参考文本以及计算出的相似度理解待分析文本表达的语义。在一种文本相似度的分析方法中,基于文本中词语的相似度计算待分析文本与参考文本的相似度,准确度较低。
技术实现思路
本公开的目的是提供一种文本相似度的分析方法、分析装置、存储介质和电子设备,用于提升文本相似度分析的准确性,使得计算出的待分析文本与参考文本的相似度更加符合实际情况。为了实现上述目的,本公开提供一种文本相似度的分析方法,所述分析方法包括:分别对待分析文本与参考文本进行分词,得到待分析文本词集和参考文本词集;分别基于待分析文本词集中的词语的语义依存关系和参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图;分别生成所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树;基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度。可选地,所述分别基于所述待分析文本词集中的词语的语义 ...
【技术保护点】
1.一种文本相似度的分析方法,其特征在于,所述分析方法包括:分别对待分析文本与参考文本进行分词,得到待分析文本词集和参考文本词集;分别基于待分析文本词集中的词语的语义依存关系和参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图;分别生成所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树;基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度。
【技术特征摘要】
1.一种文本相似度的分析方法,其特征在于,所述分析方法包括:分别对待分析文本与参考文本进行分词,得到待分析文本词集和参考文本词集;分别基于待分析文本词集中的词语的语义依存关系和参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图;分别生成所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树;基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度。2.根据权利要求1所述的分析方法,其特征在于,所述分别基于所述待分析文本词集中的词语的语义依存关系和所述参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图,包括:分别针对所述待分析文本词集和所述参考文本词集中的任意两个词语的组合,标注出所有该组合中的两个词语之间的语义依存关系类别;基于预设的语义依存关系类别与对应该语义依存关系类别的重要度关系表,标注出所有该组合中的两个词语之间的语义依存关系类别的重要度;分别针对所述待分析文本词集和所述参考文本词集中存在的所有所述组合,当该组合中的两个词语之间的语义依存关系类别满足预设条件时,于该组合中的两个词语之间建立边;将该组合中的两个词语之间的语义依存关系类别的重要度作为该组合中的两个词语之间的边的权重,分别生成所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图。3.根据权利要求1所述的分析方法,其特征在于,所述基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度,包括:针对所述待分析文本的词语节点有向图的最大生成树中的每一待分析词语节点,确定所述参考文本的词语节点有向图的最大生成树中对应于该待分析词语节点的参考词语节点;基于所述待分析词语节点相对于所述参考词语节点的相同特征和/或差异特征,计算所述待分析文本与所述参考文本的相似度。4.根据权利要求3所述的分析方法,其特征在于,所述基于所述待分析词语节点相对于所述参考词语节点的相同特征和/或差异特征,计算所述待分析文本与所述参考文本的相似度,包括:基于所述待分析词语节点与所述参考词语节点的词性、所述待分析词语节点与所述参考词语节点分别位于各自所在的最大生成树中的位置、以及所述待分析词语节点相对于所述参考词语节点的增减特征,计算所述待分析文本与所述参考文本的相似度。5.根据权利要求1所述的分析方法,其特征在于,所述基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本...
【专利技术属性】
技术研发人员:张永哲,刘作坤,
申请(专利权)人:东软集团股份有限公司,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。