一种文本匹配方法、装置、系统以及存储介质制造方法及图纸

技术编号:36692554 阅读:28 留言:0更新日期:2023-02-27 20:01
本发明专利技术提供一种文本匹配方法、装置、系统以及存储介质,属于语言处理领域,方法包括:对原始句子对进行标注分析得到标注句子对;利用编码器对各个标注句子对进行编码得到句子对隐藏向量;根据各个原始句子对以及句子对隐藏向量进行向量分析得到差异向量、第一初始全局向量以及第二初始全局向量;根据差异向量、第一初始全局向量以及第二初始全局向量进行句子对相似性匹配分数的计算得到文本匹配结果。本发明专利技术突出了关键字这一重要匹配粒度在句子匹配中的重要性,实现了更精确的文本匹配,相对现有技术,能够更精确地判断文本的相似性且提升了文本匹配的准确率。提升了文本匹配的准确率。提升了文本匹配的准确率。

【技术实现步骤摘要】
一种文本匹配方法、装置、系统以及存储介质


[0001]本专利技术主要涉及语言处理
,具体涉及一种文本匹配方法、装置、系统以及存储介质。

技术介绍

[0002]文本匹配是自然语言处理中的一项重要且富有挑战的任务,用于判断两段文本的相似性,广泛应用于搜索引擎、推荐系统、问答系统等场景。在现有的先进文本匹配模型中,大多数方法是对每个单词进行统一处理,直接进行文本比较。但是,这样忽略了文本的匹配粒度,从而降低了匹配的准确率。

技术实现思路

[0003]本专利技术所要解决的技术问题是针对现有技术的不足,提供一种文本匹配方法、装置、系统以及存储介质。
[0004]本专利技术解决上述技术问题的技术方案如下:一种文本匹配方法,包括如下步骤:
[0005]导入多个原始句子对,并分别对各个所述原始句子对进行标注分析,得到各个所述原始句子对的标注句子对;
[0006]构建编码器,利用所述编码器分别对各个所述原始句子对的标注句子对进行编码,得到各个所述原始句子对的句子对隐藏向量;
[0007]分别根据各个所述原始句本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括如下步骤:导入多个原始句子对,并分别对各个所述原始句子对进行标注分析,得到各个所述原始句子对的标注句子对;构建编码器,利用所述编码器分别对各个所述原始句子对的标注句子对进行编码,得到各个所述原始句子对的句子对隐藏向量;分别根据各个所述原始句子对以及所述原始句子对的句子对隐藏向量进行向量分析,得到各个所述原始句子对的差异向量、第一初始全局向量以及第二初始全局向量;分别根据各个所述原始句子对的差异向量、第一初始全局向量以及第二初始全局向量进行句子对相似性匹配分数的计算,得到各个所述原始句子对的句子对相似性匹配分数,并将所有所述句子对相似性匹配分数作为文本匹配结果。2.根据权利要求1所述的文本匹配方法,其特征在于,所述分别对各个所述原始句子对进行标注分析,得到各个所述原始句子对的标注句子对的过程包括:分别对各个所述原始句子对进行潜在关键词的提取,得到各个所述原始句子对的多个潜在关键词;根据预设知识库分别对各个所述原始句子对的各个潜在关键词进行匹配,得到各个所述原始句子对的多个匹配后关键词;基于命名实体识别方法,根据各个所述原始句子对的多个匹配后关键词分别对对应的所述原始句子对进行标注,得到各个所述原始句子对的标注句子对。3.根据权利要求1所述的文本匹配方法,其特征在于,所述标注句子对包括第一标注句子和第二标注句子,所述编码器包括BERT模型和最大池化层;所述利用所述编码器分别对各个所述原始句子对的标注句子对进行编码,得到各个所述原始句子对的句子对隐藏向量的过程包括:利用所述BERT模型分别对各个所述原始句子对的第一标注句子进行编码,得到各个所述原始句子对的第一隐藏分量;利用所述BERT模型分别对各个所述原始句子对的第二标注句子进行编码,得到各个所述原始句子对的第二隐藏分量;利用所述最大池化层分别对各个所述原始句子对的第一隐藏分量进行最大池化处理,得到各个所述原始句子对的第一句子隐藏向量;利用所述最大池化层分别对各个所述原始句子对的第二隐藏分量进行最大池化处理,得到各个所述原始句子对的第二句子隐藏向量;其中,所述原始句子对的句子对隐藏向量包括所述原始句子对的第一句子隐藏向量和所述原始句子对的第二句子隐藏向量。4.根据权利要求3所述的文本匹配方法,其特征在于,所述分别根据各个所述原始句子对以及所述原始句子对的句子对隐藏向量进行向量分析,得到各个所述原始句子对的差异向量、第一初始全局向量以及第二初始全局向量的过程包括:利用所述BERT模型分别对各个所述原始句子对进行编码,得到各个所述原始句子对的第一初始全局向量以及第二初始全局向量;分别根据各个所述原始句子对的第一句子隐藏向量、第二句子隐藏向量、第一初始全局向量以及第二初始全局向量进行差异向量的计算,得到各个所述原始句子对的差异向
量。5.根据权利要求4所述的文本匹配方法,其特征在于,所述分别根据各个所述原始句子对的第一句子隐藏向量、第二句子隐藏向量、第一初始全局向量以及第二初始全局向量进行差异向量的计算,得到各个所述原始句子对的差异向量的过程包括:基于第一式,分别根据各个所述原始句子对的第一句子隐藏向量、第二句子隐藏向量、第一初始全局向量以及第二初始全局向量进行差异向量的计算,得到各个所述原始句子对的差异向量,所述第一式为:K
diff
=[H
A
(CLS)

...

【专利技术属性】
技术研发人员:蔡晓东董丽芳
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1