一种文本匹配方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号:29526543 阅读:22 留言:0更新日期:2021-08-03 15:12
本发明专利技术涉及人工智能技术领域,公开了一种文本匹配方法、装置、计算机设备以及可读存储介质,该方法包括:获取预训练文本对应的句向量集合;计算句向量集合对应的句向量均值以及协方差矩阵;对句向量均值以及协方差矩阵进行转换处理,以将句向量集合的空间分布转换为各向同性分布;获取待匹配文本对应的句向量集合,并将待匹配文本对应的句向量集合的空间分布转换为各项同性分布;将转换为各项同性分布的待匹配文本对应的句向量集合,与转换为各项同性分布的预训练文本对应的句向量集合,进行余弦相似度计算,以获取与待匹配文本相匹配的目标文本。通过上述方式调整句向量的分布,提高文本匹配的效果,使得语义定义的范围更完整,可提高匹配精度。

【技术实现步骤摘要】
一种文本匹配方法、装置、计算机设备及可读存储介质
本专利技术涉及人工智能
,尤其涉及一种文本匹配方法、装置、计算机设备及可读存储介质。
技术介绍
Bert(BidirectionalEncoderRepresentationsfromTransformers)模型是一个面向NLP的无监督预训练模型,自Bert模型的出现,极大地提高了整体自然语言处理的精度。但是它的无监督文本匹配能力是受人诟病的。目前,由于经过Bert模型编码后的向量值会受到各个词语在所有训练语料中的词频的影响。因此,高频词被映射到高维空间后,更集中在远点且距离更近。举例来说,即使一个高频词和一个低频词的语义是等价的,但是距离差异却非常大。而在Bert模型的表示下,编辑距离小于4的句子语义相似度很高,但这显然是不对的,在文本中随便加一个“不”字都会让这两句话意思相反。由此可知,目前通过Bert模型进行文本匹配,不能很好地表示语义相关性,这和人对句子语义判断的机制并不符合,造成文本匹配精度低,应用性差。
技术实现思路
于此,有必要针对上述本文档来自技高网...

【技术保护点】
1.一种文本匹配方法,其特征在于,包括:/n获取预训练文本对应的句向量集合;/n计算所述句向量集合对应的句向量均值以及协方差矩阵;/n对所述句向量均值以及所述协方差矩阵进行转换处理,以将所述句向量集合的空间分布转换为各向同性分布;/n获取待匹配文本对应的句向量集合,并将所述待匹配文本对应的句向量集合的空间分布转换为各项同性分布;/n将转换为各项同性分布的待匹配文本对应的句向量集合,与所述转换为各项同性分布的预训练文本对应的句向量集合,进行余弦相似度计算,以获取与所述待匹配文本相匹配的目标文本。/n

【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括:
获取预训练文本对应的句向量集合;
计算所述句向量集合对应的句向量均值以及协方差矩阵;
对所述句向量均值以及所述协方差矩阵进行转换处理,以将所述句向量集合的空间分布转换为各向同性分布;
获取待匹配文本对应的句向量集合,并将所述待匹配文本对应的句向量集合的空间分布转换为各项同性分布;
将转换为各项同性分布的待匹配文本对应的句向量集合,与所述转换为各项同性分布的预训练文本对应的句向量集合,进行余弦相似度计算,以获取与所述待匹配文本相匹配的目标文本。


2.如权利要求1所述的文本匹配方法,其特征在于,所述将所述待匹配文本对应的句向量集合的空间分布转换为各项同性分布,包括:
获取所述待匹配文本对应的句向量集合的句向量均值以及协方差矩阵;
将所述待匹配文本对应的句向量集合的句向量均值转换为零,将所述待匹配文本对应的句向量集合的协方差矩阵转换为单位矩阵,以将所述待匹配文本对应的句向量集合的空间分布转换为各项同性分布。


3.如权利要求2所述的文本匹配方法,其特征在于,所述将所述待匹配文本对应的句向量集合的协方差矩阵转换为单位矩阵,包括:
对所述待匹配文本对应的句向量集合的协方差矩阵进行奇异值分解;
将分解后的协方差矩阵转换为单位矩阵。


4.如权利要求1所述的文本匹配方法,其特征在于,所述方法还包括:
建立测评计分规则,所述测评计分规则包括至少一个测评项;
获取所述待匹配文本与所述目标文本在每一个测评项中的匹配度;
根据所述匹配度以及所述测评计分规则,计算所述待匹配文本与所述目标文本在每一个测评项中的匹配评分,以及所述匹配评分的总和;
当所述匹配评分的总和达到预设评分阈值时,则判定所述目标文本通过质检。


5.如权利要求4所述的文本匹配方法,其特征在于,所述当所述匹配度评分的总和...

【专利技术属性】
技术研发人员:李志韬王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1