文本相似度计算方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35412794 阅读:27 留言:0更新日期:2022-11-03 11:09
本申请提供一种文本相似度计算方法、装置、电子设备及存储介质,涉及数据处理技术领域。该方法包括:对待匹配文本进行分词操作,确定至少一个待匹配词语;基于词向量库,获取各待匹配词语的词向量;若确定词向量库不存在任一待匹配词语的词向量时,根据同义词知识库获取任一待匹配词语的同义可匹配词语,并根据词向量库,获取同义可匹配词语的词向量作为任一待匹配词语的词向量;根据各待匹配词语的词向量,计算待匹配文本的第一文本向量;计算第一文本向量和检索文本对应的第二文本向量之间的向量距离,并根据向量距离确定文本相似度,实现了可以根据同义词知识库和词向量库互补确定该待匹配词语的词向量,有效提高文本相似度算法的开发效率。度算法的开发效率。度算法的开发效率。

【技术实现步骤摘要】
文本相似度计算方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理
,特别涉及一种文本相似度计算方法、装置、电子设备及存储介质。

技术介绍

[0002]数据挖掘领域中,文本分析是数据挖掘的重要手段,利用文本分析,可以快速地提取到一本书、一篇文章、一段话中的关键词和核心思想,而文本相似度就是我们用来剔除无用信息或者重复信息的重要手段。
[0003]现有技术中,进行文本相似度计算时,主要基于预训练的词向量库得到待匹配文本的文本向量,然后将该待匹配文本的文本向量与检索文本的文本向量进行比较得到匹配结果。
[0004]但由于词向量库中的词汇比较有限,往往需要定期更新词向量库,而词向量库的更新训练需要耗费较多的时间,因此,现有的文本相似度计算方法存在开发效率较低的问题。

技术实现思路

[0005]本申请的目的在于,针对上述现有技术中的不足,提供一种文本相似度计算方法、装置、电子设备及存储介质,可以提高文本相似度计算方法的开发效率。
[0006]为实现上述目的,本申请实施例采用的技术方案如下:
...

【技术保护点】

【技术特征摘要】
1.一种文本相似度计算方法,其特征在于,包括:对待匹配文本进行分词操作,确定待匹配词语集合,所述待匹配词语集合包括至少一个待匹配词语;基于词向量库,获取各所述待匹配词语的词向量,所述词向量库包括多个可匹配词语的词向量;若确定所述词向量库不存在任一所述待匹配词语的词向量时,根据同义词知识库获取任一所述待匹配词语的同义可匹配词语,并根据所述词向量库,获取所述同义可匹配词语的词向量作为任一所述待匹配词语的词向量;根据各所述待匹配词语的词向量,计算所述待匹配文本的第一文本向量;计算所述第一文本向量和检索文本对应的第二文本向量之间的向量距离,并根据所述向量距离确定所述待匹配文本和所述检索文本之间的文本相似度。2.根据权利要求1所述的方法,其特征在于,所述同义词知识库包括所述词向量库中各可匹配词语与其所对应的同义词之间的同义词映射关系;所述根据同义词知识库获取任一所述待匹配词语的同义可匹配词语,包括:基于所述同义词映射关系,根据所述同义词知识库获取任一所述待匹配词语的同义可匹配词语。3.根据权利要求2所述的方法,其特征在于,所述同义词知识库还包括:所述词向量库中各可匹配词语与其所对应的同义词之间的匹配程度;所述基于所述同义词映射关系,根据所述同义词知识库获取任一所述待匹配词语的同义可匹配词语,包括:基于所述同义词映射关系和所述词向量库中各可匹配词语与其所对应的同义词之间的匹配程度,确定匹配程度最高的同义可匹配词语作为任一所述待匹配词语的同义可匹配词语。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:响应于对所述同义词知识库的更新请求,所述更新请求包括至少一个待更新词语;根据所述更新请求,建立至少一个待更新词语与所述词向量库中各可匹配词语之间的同义词映射关系。5.根据权利要求1所述的方法,其特征在于,所述根据各所述待匹配词语的词向量,计算所述待匹配文本的第一文本向量,包括:对各所述待匹配词语的词向量进行加权平均,得到所述待匹配文本的第一文本向量。6.根据权利要求1所述的方法,其特征在于...

【专利技术属性】
技术研发人员:范贵川陆佳高伟
申请(专利权)人:南京中孚信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1