文本相似性度量方法、装置、终端及存储介质制造方法及图纸

技术编号：20364356 阅读：32 留言：0更新日期：2019-02-16 17:11

本发明专利技术实施例公开了一种文本相似性度量方法、装置、终端及存储介质，其中方法包括：获取待处理的目标文本集合，所述目标文本集合包括第一文本和第二文本；对所述目标文本集合进行意图分类处理，得到所述目标文本集合的概率向量组；其中，所述目标文本集合的概率向量组包括所述第一文本的第一意图类别所对应的第一概率向量和所述第二文本的第二意图类别所对应的第二概率向量；基于意图相似性矩阵、所述第一概率向量和所述第二概率向量确定所述目标文本集合的目标相似性。本发明专利技术实施例通过意图分类来计算目标文本集合的目标相似性，可以提高相似性度量结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本相似性度量方法、装置、终端及存储介质
本专利技术涉及计算机
，尤其涉及文本相似性度量方法、装置、终端及存储介质。
技术介绍
相似性度量，即综合评定两个事物之间相近程度的一种度量。相似性度量方法在信息检索领域是备受关注的研究内容，可以被广泛运用于信息检索和智能问答系统。目前，常用的相似性度量方法主要包括：欧式距离相似性度量方法和角度相似性度量方法(例如cos相似性度量)。目前常用的相似性度量方法主要通过计算两个文本之间的距离或者角度，根据计算出的距离或角度来评判两个文本的相似度。由于自然语言具有语言表达丰富多样的特点，对于同一句话，可能存在不同的表达方式。两个文本的表达方式的不同，则会影响计算出的两个文本之间的距离或者角度，其相似度也会随之受到影响。由此可见，目前的相似性度量方法在计算两个文本的相似度时，会受到文本的表达方式的影响，其计算出的相似度的准确性较低。
技术实现思路
本专利技术实施例提供了一种文本相似性度量方法、装置、终端及计算机可读存储介质，可以提高相似性度量结果的准确性。一方面，本专利技术实施例提供了一种文本相似性度量方法，所述相似性度量方法包括：获取待处理的目标文本集合，所述目标文本集合包括第一文本和第二文本；对所述目标文本集合进行意图分类处理，得到所述目标文本集合的概率向量组；其中，所述目标文本集合的概率向量组包括所述第一文本的第一意图类别对应的第一概率向量和所述第二文本的第二意图类别对应的第二概率向量；基于意图相似性矩阵、所述第一概率向量和所述第二概率向量确定所述目标文本集合的目标相似性。另一方面，本专利技术实施例提供了一种文本相似...

【技术保护点】
1.一种文本相似性度量方法，其特征在于，包括：获取待处理的目标文本集合，所述目标文本集合包括第一文本和第二文本；对所述目标文本集合进行意图分类处理，得到所述目标文本集合的概率向量组；其中，所述目标文本集合的概率向量组包括所述第一文本的第一意图类别对应的第一概率向量和所述第二文本的第二意图类别对应的第二概率向量；基于意图相似性矩阵、所述第一概率向量和所述第二概率向量确定所述目标文本集合的目标相似性。

【技术特征摘要】
1.一种文本相似性度量方法，其特征在于，包括：获取待处理的目标文本集合，所述目标文本集合包括第一文本和第二文本；对所述目标文本集合进行意图分类处理，得到所述目标文本集合的概率向量组；其中，所述目标文本集合的概率向量组包括所述第一文本的第一意图类别对应的第一概率向量和所述第二文本的第二意图类别对应的第二概率向量；基于意图相似性矩阵、所述第一概率向量和所述第二概率向量确定所述目标文本集合的目标相似性。2.如权利要求1所述的方法，其特征在于，所述方法还包括：获取样本数据，所述样本数据包括至少一个文本集合；针对所述样本数据中的任一文本集合，对所述文本集合进行意图分类处理，得到所述文本集合的意图分类结果，所述意图分类结果包括所述文本集合的意图类别组，所述意图类别组包括所述文本集合中的各个文本的意图类别；基于所述样本数据中的各文本集合的意图类别组，统计预设意图类别的联合出现次数；根据所述联合出现次数确定所述意图相似性矩阵。3.如权利要求2所述的方法，其特征在于，所述根据所述联合出现次数确定所述意图相似性矩阵，包括：根据所述预设意图类别构建联合频次矩阵，并初始化所述联合频次矩阵的元素值；根据所述联合出现次数，对所述联合频次矩阵中的元素值进行更新；对更新后的联合频次矩阵进行转换，得到所述意图相似性矩阵。4.如权利要求3所述的方法，其特征在于，所述根据所述联合出现次数，对所述联合频次矩阵中的元素值进行更新，包括：确定所述行权重值、所述列权重值以及所述联合出现次数的乘积；根据所述乘积对所述元素值进行更新。5.如权利要求3或4所述的方法，其特征在于，所述意图分类结果还包括所述文本集合的概率向量组；所述方法还包括：针对所述样本数据中的任一文本集合，基于所述意图相似性矩阵，以及所述文本集合的概率向量组所包含的各概率向量，计算所述文本...

【专利技术属性】
技术研发人员：杜若，覃勋辉，向海，侯聪，刘科，刘波，
申请(专利权)人：重庆邂智科技有限公司，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人