文本相似性度量方法、装置、终端及存储介质制造方法及图纸

技术编号:20364356 阅读:32 留言:0更新日期:2019-02-16 17:11
本发明专利技术实施例公开了一种文本相似性度量方法、装置、终端及存储介质,其中方法包括:获取待处理的目标文本集合,所述目标文本集合包括第一文本和第二文本;对所述目标文本集合进行意图分类处理,得到所述目标文本集合的概率向量组;其中,所述目标文本集合的概率向量组包括所述第一文本的第一意图类别所对应的第一概率向量和所述第二文本的第二意图类别所对应的第二概率向量;基于意图相似性矩阵、所述第一概率向量和所述第二概率向量确定所述目标文本集合的目标相似性。本发明专利技术实施例通过意图分类来计算目标文本集合的目标相似性,可以提高相似性度量结果的准确性。

【技术实现步骤摘要】
文本相似性度量方法、装置、终端及存储介质
本专利技术涉及计算机
,尤其涉及文本相似性度量方法、装置、终端及存储介质。
技术介绍
相似性度量,即综合评定两个事物之间相近程度的一种度量。相似性度量方法在信息检索领域是备受关注的研究内容,可以被广泛运用于信息检索和智能问答系统。目前,常用的相似性度量方法主要包括:欧式距离相似性度量方法和角度相似性度量方法(例如cos相似性度量)。目前常用的相似性度量方法主要通过计算两个文本之间的距离或者角度,根据计算出的距离或角度来评判两个文本的相似度。由于自然语言具有语言表达丰富多样的特点,对于同一句话,可能存在不同的表达方式。两个文本的表达方式的不同,则会影响计算出的两个文本之间的距离或者角度,其相似度也会随之受到影响。由此可见,目前的相似性度量方法在计算两个文本的相似度时,会受到文本的表达方式的影响,其计算出的相似度的准确性较低。
技术实现思路
本专利技术实施例提供了一种文本相似性度量方法、装置、终端及计算机可读存储介质,可以提高相似性度量结果的准确性。一方面,本专利技术实施例提供了一种文本相似性度量方法,所述相似性度量方法包括:获取待处理的目标文本集合,所述目标文本集合包括第一文本和第二文本;对所述目标文本集合进行意图分类处理,得到所述目标文本集合的概率向量组;其中,所述目标文本集合的概率向量组包括所述第一文本的第一意图类别对应的第一概率向量和所述第二文本的第二意图类别对应的第二概率向量;基于意图相似性矩阵、所述第一概率向量和所述第二概率向量确定所述目标文本集合的目标相似性。另一方面,本专利技术实施例提供了一种文本相似性度量装置,所述文本相似性度量装置包括:获取单元,用于获取待处理的目标文本集合,所述目标文本集合包括第一文本和第二文本;处理单元,用于对所述目标文本集合进行意图分类处理,得到所述目标文本集合的概率向量组;其中,所述目标文本集合的概率向量组包括所述第一文本的第一意图类别对应的第一概率向量和所述第二文本的第二意图类别对应的第二概率向量;确定单元,用于基于意图相似性矩阵、所述第一概率向量和所述第二概率向量确定所述目标文本集合的目标相似性。再一方面,本专利技术实施例提供一种用于文本相似性度量的终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如下步骤:获取待处理的目标文本集合,所述目标文本集合包括第一文本和第二文本;对所述目标文本集合进行意图分类处理,得到所述目标文本集合的概率向量组;其中,所述目标文本集合的概率向量组包括所述第一文本的第一意图类别对应的第一概率向量和所述第二文本的第二意图类别对应的第二概率向量;基于意图相似性矩阵、所述第一概率向量和所述第二概率向量确定所述目标文本集合的目标相似性。再一方面,本专利技术实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或一条以上指令,所述一条或一条以上指令适于由处理器加载并执行如下步骤:获取待处理的目标文本集合,所述目标文本集合包括第一文本和第二文本;对所述目标文本集合进行意图分类处理,得到所述目标文本集合的概率向量组;其中,所述目标文本集合的概率向量组包括所述第一文本的第一意图类别对应的第一概率向量和所述第二文本的第二意图类别对应的第二概率向量;基于意图相似性矩阵、所述第一概率向量和所述第二概率向量确定所述目标文本集合的目标相似性。本专利技术实施例在对待处理的目标文本集合(包括第一文本和第二文本)进行相似性度量时,可以对目标文本集合进行意图分类处理,得到目标文本集合的概率向量组。然后基于意图相似性矩阵和目标文本集合的概率向量组所包括的第一文本的第一意图类别对应的第一概率向量和第二文本的第二意图类别对应的第二概率向量确定目标文本集合的目标相似性。通过对目标文本集合进行意图分类处理,基于意图分类处理得到的目标概率向量组对目标文本集合进行相似性度量,不需要计算目标文本集合中的第一文本和第二文本之间的距离或者角度,可以避免计算出的目标文本集合的相似性受文本的表达方式的影响,可以提高相似性度量结果的准确性。附图说明为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种文本相似性度量方法的流程示意图;图2是本专利技术另一实施例提供的一种文本相似性度量方法的流程示意图;图3是本专利技术实施例提供的一种文本相似性度量装置的结构示意图;图4是本专利技术实施例提供的一种用于文本相似性度量的终端的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。在本专利技术实施例中,提供了一种文本相似性度量方法,该文本相似性度量方法可以运用在信息检索中。例如用户在通过互联网搜索引擎检索信息时,终端可以根据用户所输入的查询信息,采用此文本相似性度量方法计算数据库中已存储信息与该查询信息的相似度,将相似度高于阈值所对应的已存储信息输出,以供用户查看。在一种实施方式中,该文本相似性度量方法还可以运用在智能问答系统中,智能问答系统是新一代智能搜索引擎,采用一问一答的方式,向用户反馈准确的答案。例如用户在智能问答系统中输入问题A后,智能问答系统可以从问题数据库中存储的问题中任意选取一个问题作为问题B。然后可以分别对问题A和问题B进行意图分类处理,得到问题A的意图类别所对应的第一概率向量以及问题B的意图类别所对应的第二概率向量。接着可以基于意图相似性矩阵、第一概率向量和第二概率向量确定问题A和问题B的相似性。智能问答系统在分别计算问题数据库中存储的所有问题与问题A的相似性之后,可以根据这些所有问题与问题A的相似性确定目标问题,该目标问题可以是与问题A的相似性最高的问题,也可以是与问题A的相似性高于预设阈值的一个或多个问题。然后获取该目标问题所对应的目标答案,并将此目标答案反馈给用户。基于上述的描述,本专利技术实施例提出了一种文本相似性度量方法,该文本相似性度量方法的流程示意图可以如图1所示。在一种实施方式中,本专利技术实施例所提供的文本相似性度量方法可以由终端执行,此处的终端可以包括但不限于:移动电话、膝上型计算机或平板计算机等便携式设备,以及台式计算机,等等。再一种实施方式中,该文本相似性度量方法也可以由服务器执行,此处的服务器可以包括但不限于:数据处理服务器、web服务器、搜索引擎所对应的服务器,或者智能问答系统所对应的应用服务器,等等。本专利技术实施例以终端执行该文本相似性度量方法为例,请参见图1,该文本相似性度量方法可以包括以下步骤S101-S103:S101,获取待处理的目标文本集合,所述目标文本集合包括第一文本和第二文本。文本是一种书面语言的表现形式,可以是一个句子或多个句子的组合,此处的句子可以是问句、陈述句、祈使句,等等。相应的,此处的目标文本集合可以是待处理的问句集合、陈述句集合或者祈使句集合等等。终端在检测到进行文本相似性度量的触发事件后,可以获取待处理的目标文本集合。本文档来自技高网...

【技术保护点】
1.一种文本相似性度量方法,其特征在于,包括:获取待处理的目标文本集合,所述目标文本集合包括第一文本和第二文本;对所述目标文本集合进行意图分类处理,得到所述目标文本集合的概率向量组;其中,所述目标文本集合的概率向量组包括所述第一文本的第一意图类别对应的第一概率向量和所述第二文本的第二意图类别对应的第二概率向量;基于意图相似性矩阵、所述第一概率向量和所述第二概率向量确定所述目标文本集合的目标相似性。

【技术特征摘要】
1.一种文本相似性度量方法,其特征在于,包括:获取待处理的目标文本集合,所述目标文本集合包括第一文本和第二文本;对所述目标文本集合进行意图分类处理,得到所述目标文本集合的概率向量组;其中,所述目标文本集合的概率向量组包括所述第一文本的第一意图类别对应的第一概率向量和所述第二文本的第二意图类别对应的第二概率向量;基于意图相似性矩阵、所述第一概率向量和所述第二概率向量确定所述目标文本集合的目标相似性。2.如权利要求1所述的方法,其特征在于,所述方法还包括:获取样本数据,所述样本数据包括至少一个文本集合;针对所述样本数据中的任一文本集合,对所述文本集合进行意图分类处理,得到所述文本集合的意图分类结果,所述意图分类结果包括所述文本集合的意图类别组,所述意图类别组包括所述文本集合中的各个文本的意图类别;基于所述样本数据中的各文本集合的意图类别组,统计预设意图类别的联合出现次数;根据所述联合出现次数确定所述意图相似性矩阵。3.如权利要求2所述的方法,其特征在于,所述根据所述联合出现次数确定所述意图相似性矩阵,包括:根据所述预设意图类别构建联合频次矩阵,并初始化所述联合频次矩阵的元素值;根据所述联合出现次数,对所述联合频次矩阵中的元素值进行更新;对更新后的联合频次矩阵进行转换,得到所述意图相似性矩阵。4.如权利要求3所述的方法,其特征在于,所述根据所述联合出现次数,对所述联合频次矩阵中的元素值进行更新,包括:确定所述行权重值、所述列权重值以及所述联合出现次数的乘积;根据所述乘积对所述元素值进行更新。5.如权利要求3或4所述的方法,其特征在于,所述意图分类结果还包括所述文本集合的概率向量组;所述方法还包括:针对所述样本数据中的任一文本集合,基于所述意图相似性矩阵,以及所述文本集合的概率向量组所包含的各概率向量,计算所述文本...

【专利技术属性】
技术研发人员:杜若覃勋辉向海侯聪刘科刘波
申请(专利权)人:重庆邂智科技有限公司
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1