判断两个文本语义相似度的方法、装置、存储介质及设备制造方法及图纸

技术编号：24170272 阅读：37 留言：0更新日期：2020-05-16 02:43

本申请公开了一种判断两个文本语义相似度的方法、装置、存储介质及设备，用于判断以下两个文本的语义相似度：第一文本和第二文本；包括：分别对所述第一文本和所述第二文本进行分词得到第一分词结果和第二分词结果；分别过滤掉所述第一分词结果和第二分词结果中的无意义词；利用文本编辑距离算法获得过滤后的第一分词结果和第二分词结果之间的差异词集合；通过所述差异词集合判断两个文本的语义相似度。该方法可以有效消除两个文本中非差异词对判断结果带来的影响，从而能够得到更加准确的判断结果。

Methods, devices, storage media and devices for judging semantic similarity between two texts

全部详细技术资料下载

【技术实现步骤摘要】
判断两个文本语义相似度的方法、装置、存储介质及设备
本申请涉及人工智能
，特别是涉及一种判断两个文本语义相似度的方法、装置、存储介质及设备。
技术介绍
随着人工智能的发展，信息数据处理量越来越大，文本数量更是成指数型增长，如何准确判断出文本间的相似度，以便于精确检索出信息，已成为目前亟待解决的问题。但在现有技术中，仅单纯利用词频-逆文本频率指数tf-idf算法或word2vec来计算两个文本之间的相似度，这种计算方式仅仅能够在语义层面判断出两个文本之间的相似度，并未考虑文本所处的语境，即，仅能够通过预先设定的阈值来判断两个文本所描述的内容是否一致，却无法获得这两个文本间在所属语境中更加准确的语义相似度，例如，在利用现有的向量化方式对文本“沈阳地铁建设项目”和“沈阳地铁系统建设项目”进行相似度计算时，通常会得到较好的相似度计算结果。但是，根据人工判断可知，这两个文本之间存在差异词“系统”，且文本“沈阳地铁建设项目”描述的可能是沈阳地铁具体的工程项目建设情况(如建设地点、招标单位等)，而文本“沈阳地铁系统建设项目”描述的可能是有关沈阳地铁的软件系统(如通信系统等)或硬件系统(如排水系统等)的构建项目，也就是说，这两个文本描述的内容可能存在极大的差距。因此，现有技术中的方法不能准确判断两个文本的语义相似度。
技术实现思路
本申请提供了一种判断两个文本语义相似度的方法、装置、存储介质及设备，能够准确判断两个文本的语义相似度。本申请提供一种判断两个文本语义相似度的方法，用于判断...

【技术保护点】
1.一种判断两个文本语义相似度的方法，其特征在于，用于判断以下两个文本的语义相似度：第一文本和第二文本；包括：/n分别对所述第一文本和所述第二文本进行分词得到第一分词结果和第二分词结果；/n分别过滤掉所述第一分词结果和第二分词结果中的无意义词；/n利用文本编辑距离算法获得过滤后的第一分词结果和第二分词结果之间的差异词集合；/n通过所述差异词集合判断两个文本的语义相似度。/n

【技术特征摘要】
1.一种判断两个文本语义相似度的方法，其特征在于，用于判断以下两个文本的语义相似度：第一文本和第二文本；包括：
分别对所述第一文本和所述第二文本进行分词得到第一分词结果和第二分词结果；
分别过滤掉所述第一分词结果和第二分词结果中的无意义词；
利用文本编辑距离算法获得过滤后的第一分词结果和第二分词结果之间的差异词集合；
通过所述差异词集合判断两个文本的语义相似度。

2.根据权利要求1所述的方法，其特征在于，所述分别过滤掉所述第一分词结果和第二分词结果中的无意义词，具体包括：
分别对所述第一分词结果和所述第二分词结果进行词性标注，根据词性标注结果过滤掉所述第一分词结果和所述第二分词结果中的无意义词。

3.根据权利要求1所述的方法，其特征在于，所述分别过滤掉所述第一分词结果和第二分词结果中的无意义词，具体包括：
对于所述第一分词结果和所述第二分词结果中非地名的词语，利用词频-逆文本频率指数tf-idf算法获得idf值小于第一预设阈值的词作为无意义词；
将所述无意义词过滤掉。

4.根据权利要求1所述的方法，其特征在于，在所述利用文本编辑距离算法获得过滤后的第一分词结果和第二分词结果之间的差异词集合，之前还包括：
对于动词存在相邻的名词时，将所述动词以及与其相邻的名词进行合并作为一个复合名词。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述通过所述差异词集合判断两个文本的语义相似度，具体包括：
当所述第一文本和所述第二文本的差异词集合一个为空集合，另一个为非空集合时，通过搜索引擎搜索所述非空集合中的所有词，通过词频-逆文本频率指数tf-idf算法判断所述非空集合中的至少一个词具有独立含义，则确定所述第一文本和所述第二文本语义不相似，如果判断所述非空集合中的所有词均不具有独立含义，则判断所述第一文本和所述第二文本语义相似。

6.根据权利要求5所述的方法，其特征在于，所述通过词频-逆文...

【专利技术属性】
技术研发人员：赵耕弘，崔朝辉，赵立军，张霞，
申请(专利权)人：东软集团股份有限公司，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人