判断两个文本语义相似度的方法、装置、存储介质及设备制造方法及图纸

技术编号:24170272 阅读:37 留言:0更新日期:2020-05-16 02:43
本申请公开了一种判断两个文本语义相似度的方法、装置、存储介质及设备,用于判断以下两个文本的语义相似度:第一文本和第二文本;包括:分别对所述第一文本和所述第二文本进行分词得到第一分词结果和第二分词结果;分别过滤掉所述第一分词结果和第二分词结果中的无意义词;利用文本编辑距离算法获得过滤后的第一分词结果和第二分词结果之间的差异词集合;通过所述差异词集合判断两个文本的语义相似度。该方法可以有效消除两个文本中非差异词对判断结果带来的影响,从而能够得到更加准确的判断结果。

Methods, devices, storage media and devices for judging semantic similarity between two texts

【技术实现步骤摘要】
判断两个文本语义相似度的方法、装置、存储介质及设备
本申请涉及人工智能
,特别是涉及一种判断两个文本语义相似度的方法、装置、存储介质及设备。
技术介绍
随着人工智能的发展,信息数据处理量越来越大,文本数量更是成指数型增长,如何准确判断出文本间的相似度,以便于精确检索出信息,已成为目前亟待解决的问题。但在现有技术中,仅单纯利用词频-逆文本频率指数tf-idf算法或word2vec来计算两个文本之间的相似度,这种计算方式仅仅能够在语义层面判断出两个文本之间的相似度,并未考虑文本所处的语境,即,仅能够通过预先设定的阈值来判断两个文本所描述的内容是否一致,却无法获得这两个文本间在所属语境中更加准确的语义相似度,例如,在利用现有的向量化方式对文本“沈阳地铁建设项目”和“沈阳地铁系统建设项目”进行相似度计算时,通常会得到较好的相似度计算结果。但是,根据人工判断可知,这两个文本之间存在差异词“系统”,且文本“沈阳地铁建设项目”描述的可能是沈阳地铁具体的工程项目建设情况(如建设地点、招标单位等),而文本“沈阳地铁系统建设项目”描述的可能是有关沈阳地铁的软件系统(如通信系统等)或硬件系统(如排水系统等)的构建项目,也就是说,这两个文本描述的内容可能存在极大的差距。因此,现有技术中的方法不能准确判断两个文本的语义相似度。
技术实现思路
本申请提供了一种判断两个文本语义相似度的方法、装置、存储介质及设备,能够准确判断两个文本的语义相似度。本申请提供一种判断两个文本语义相似度的方法,用于判断以下两个文本的语义相似度:第一文本和第二文本;包括:分别对所述第一文本和所述第二文本进行分词得到第一分词结果和第二分词结果;分别过滤掉所述第一分词结果和第二分词结果中的无意义词;利用文本编辑距离算法获得过滤后的第一分词结果和第二分词结果之间的差异词集合;通过所述差异词集合判断两个文本的语义相似度。优选地,所述分别过滤掉所述第一分词结果和第二分词结果中的无意义词,具体包括:分别对所述第一分词结果和所述第二分词结果进行词性标注,根据词性标注结果过滤掉所述第一分词结果和所述第二分词结果中的无意义词。优选地,所述分别过滤掉所述第一分词结果和第二分词结果中的无意义词,具体包括:对于所述第一分词结果和所述第二分词结果中非地名的词语,利用词频-逆文本频率指数tf-idf算法获得idf值小于第一预设阈值的词作为无意义词;将所述无意义词过滤掉。优选地,在所述利用文本编辑距离算法获得过滤后的第一分词结果和第二分词结果之间的差异词集合,之前还包括:对于动词存在相邻的名词时,将所述动词以及与其相邻的名词进行合并作为一个复合名词。优选地,所述通过所述差异词集合判断两个文本的语义相似度,具体包括:当所述第一文本和所述第二文本的差异词集合一个为空集合,另一个为非空集合时,通过搜索引擎搜索所述非空集合中的所有词,通过词频-逆文本频率指数tf-idf算法判断所述非空集合中的至少一个词具有独立含义,则确定所述第一文本和所述第二文本语义不相似,如果判断所述非空集合中的所有词均不具有独立含义,则判断所述第一文本和所述第二文本语义相似。优选地,所述通过词频-逆文本频率指数tf-idf算法判断所述非空集合中的至少一个词具有独立含义,具体包括:通过词频-逆文本频率指数tf-idf算法获得所述非空集合中的至少一个词的idf值;当所述非空集合中的至少一个词的idf值大于第二预设阈值时,判断所述非空集合中的至少一个词具有独立含义。优选地,所述通过所述差异词集合判断两个文本的语义相似度,具体包括:当所述第一文本和所述第二文本的差异词集合均为非空集合时,通过搜索引擎搜索所述第一文本对应的非空集合中的所有词和所述第二文本对应的第二非空集合中的所有词;通过word2vec分别获得所述第一非空集合中所有词的向量相加得到的第一向量和所述第二非空集合中所有的词的向量相加得到的第二向量;利用余弦相似度获得所述第一向量和所述第二向量的相似度,如果所述相似度大于预设相似度阈值,则确定所述第一文本和所述第二文本语义相似。优选地,如果所述相似度小于等于预设相似度阈值,则还包括:通过所述搜索引擎搜索包括所述第一非空集合中的所有词的第一网页集合,通过所述搜索引擎搜索包括所述第二非空集合中的所有词的第二网页集合;获得所述第一网页集合中包括所述第二非空集合中至少一个词的第一网页数目,获得所述第二网页集合中包括所述第一非空集合中至少一个词的第二网页数目;获得所述第一网页数目与所述第一网页集合中网页总数目的第一比值,获得所述第二网页数目与所述第二网页集合中网页总数目的第二比值;获得包括所述第一非空集合中的词和所述第二非空集合中词两两组合的网页总数目;利用所述第一非空集合中的词和所述第二非空集合中词两两组合的种类和所述两两组合的网页总数目获得两两组合对应的平均值;利用所述第一比值与所述第二比值的和以及所述平均值来修正所述相似度;当修正后的相似度大于所述预设相似度阈值,则确定所述第一文本和所述第二文本语义相似,反之确定则确定所述第一文本和所述第二文本语义不相似。本申请还提供一种判断两个文本语义相似度的装置,用于判断以下两个文本的语义相似度:第一文本和第二文本;包括:分词单元,用于分别对所述第一文本和所述第二文本进行分词得到第一分词结果和第二分词结果;过滤单元,用于分别过滤掉所述第一分词结果和第二分词结果中的无意义词;获得单元,用于利用文本编辑距离算法获得过滤后的第一分词结果和第二分词结果之间的差异词集合;判断单元,用于通过所述差异词集合判断两个文本的语义相似度。本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行所述的判断两个文本语义相似度的方法。本申请还提供一种判断两个文本语义相似度的设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如所述的判断两个文本语义相似度的方法。从以上技术方案可以看出,本申请实施例具有以下优点:本申请实施例提供的判断两个文本语义相似度的方法、装置及存储介质,在判断第一文本和第二文本的语义相似度时,首先分别对第一文本和第二文本进行分词得到第一分词结果和第二分词结果,再分别过滤掉第一分词结果和第二分词结果中的无意义词,接着,再利用文本编辑距离算法获得过滤后的第一分词结果和第二分词结果之间的差异词集合,进而可以通过差异词集合判断两个文本的语义相似度。可见,本申请实施例是先对文本进行分词,过滤掉两个分词结果中的无意义词,再对两个分词结果中的差异词进行对比,根据差异词来判断两个文本的语义是否相似。由于两个文本是否相似取决于差异词的语义是否相同。相比于现有技术仅单纯利用tf-idf算本文档来自技高网...

【技术保护点】
1.一种判断两个文本语义相似度的方法,其特征在于,用于判断以下两个文本的语义相似度:第一文本和第二文本;包括:/n分别对所述第一文本和所述第二文本进行分词得到第一分词结果和第二分词结果;/n分别过滤掉所述第一分词结果和第二分词结果中的无意义词;/n利用文本编辑距离算法获得过滤后的第一分词结果和第二分词结果之间的差异词集合;/n通过所述差异词集合判断两个文本的语义相似度。/n

【技术特征摘要】
1.一种判断两个文本语义相似度的方法,其特征在于,用于判断以下两个文本的语义相似度:第一文本和第二文本;包括:
分别对所述第一文本和所述第二文本进行分词得到第一分词结果和第二分词结果;
分别过滤掉所述第一分词结果和第二分词结果中的无意义词;
利用文本编辑距离算法获得过滤后的第一分词结果和第二分词结果之间的差异词集合;
通过所述差异词集合判断两个文本的语义相似度。


2.根据权利要求1所述的方法,其特征在于,所述分别过滤掉所述第一分词结果和第二分词结果中的无意义词,具体包括:
分别对所述第一分词结果和所述第二分词结果进行词性标注,根据词性标注结果过滤掉所述第一分词结果和所述第二分词结果中的无意义词。


3.根据权利要求1所述的方法,其特征在于,所述分别过滤掉所述第一分词结果和第二分词结果中的无意义词,具体包括:
对于所述第一分词结果和所述第二分词结果中非地名的词语,利用词频-逆文本频率指数tf-idf算法获得idf值小于第一预设阈值的词作为无意义词;
将所述无意义词过滤掉。


4.根据权利要求1所述的方法,其特征在于,在所述利用文本编辑距离算法获得过滤后的第一分词结果和第二分词结果之间的差异词集合,之前还包括:
对于动词存在相邻的名词时,将所述动词以及与其相邻的名词进行合并作为一个复合名词。


5.根据权利要求1-4任一项所述的方法,其特征在于,所述通过所述差异词集合判断两个文本的语义相似度,具体包括:
当所述第一文本和所述第二文本的差异词集合一个为空集合,另一个为非空集合时,通过搜索引擎搜索所述非空集合中的所有词,通过词频-逆文本频率指数tf-idf算法判断所述非空集合中的至少一个词具有独立含义,则确定所述第一文本和所述第二文本语义不相似,如果判断所述非空集合中的所有词均不具有独立含义,则判断所述第一文本和所述第二文本语义相似。


6.根据权利要求5所述的方法,其特征在于,所述通过词频-逆文...

【专利技术属性】
技术研发人员:赵耕弘崔朝辉赵立军张霞
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1