System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于深度学习的多特征二阶段语义相似度度量方法技术_技高网
当前位置: 首页 > 专利查询>浙江大学专利>正文

基于深度学习的多特征二阶段语义相似度度量方法技术

技术编号:40407242 阅读:5 留言:0更新日期:2024-02-20 22:28
本发明专利技术公开了一种基于深度学习的多特征二阶段语义相似度度量方法。包括如下步骤:1)收集大量特定主题的文本作为语料文本库;2)对部分语料文本进行预处理,构造数据集以供深度神经网络进行有监督学习;3)训练深度神经网络,得到能够将语料文本处理为关键词的网络模型;4)对提取的原语料文本的关键词计算关键词之间的最小编辑距离和最长公共子序列,同时结合SBERT等模型对原语料文本进行文本嵌入,计算文本之间的余弦相似度;5)利用上述多种特征结合的方法,完成特定主题的语义相似度度量。本发明专利技术较之前的方法在于将语料进行文本处理,提取出来关键信息作为相似度的一种补充策略,对结果有更多的可解释性。

【技术实现步骤摘要】

本专利技术属于自然语言处理,尤其涉及一种基于深度学习的多特征二阶段语义相似度度量方法,可以将其应用于搜索匹配的场景中。


技术介绍

1、语义相似度匹配是自然语言处理领域的一个重要研究方向,它致力于度量两个句子或文本之间的语义相似程度。相比于传统的基于词频统计和句法结构的文本匹配方法,语义相似度匹配更加关注句子的语义信息,能够更准确地捕捉句子的含义和关系。语义相似度匹配有广泛的应用场景。其中一大应用是问答系统中的问题匹配,通过计算问题与已有问题的相似度,可以找到相似的问题及其答案,提高问题解决的效率。另一个应用是信息检索中的查询扩展,通过计算查询词与文档之间的语义相似度,可以在搜索引擎中提供更加准确和全面的搜索结果。还有一些其他应用包括自动摘要、对话系统、文本分类等。

2、在研究方面,语义相似度匹配的方法可以分为两大类:基于知识库的方法和基于深度学习的方法。基于知识库的方法:利用领域专家构建的词汇语义网络或知识图谱,通过计算词语之间的关联性来推测句子的语义相似度。这种方法能够输出可解释性较强的结果,但是其依赖于事先构建好的知识库,对领域和语料的覆盖性有一定限制。基于深度学习的方法:通过使用神经网络,将文本转化为向量表示,然后通过比较向量之间的距离来判断语义相似度。

3、但是在某些特定场景下,比如新闻场景、在线的医疗问答、相关行业的研报搜索等等,相关性的搜索不仅需要捕捉到长距离的组合信息,也需要能够对文本描述中的关键词进行准确的抽取,将抽取之后的关键词进行相关的匹配和相似度的计算。在关注到整体语义信息的同时,也能够对其关键词进行抽取,获得额外的关注。因此需要设计用于特定场景下的语义相似度匹配方法。


技术实现思路

1、本专利技术公开了一种基于深度学习的多特征二阶段语义相似度度量的方法。其目的是利用统计学方法的便捷和可解释性,以及深度学习神经网络强大的特征提取能力,为特定场景下的语义相似度匹配提供更加适用可靠的度量方法,实现将其更好的应用在现实场景中,提高用户的体验感。

2、本专利技术解决其技术问题所采用的技术方案如下:

3、本专利技术提出了一种基于深度学习的多特征二阶段语义相似度度量方法,该方法分两个阶段对语义相似度进行匹配计算,包括以下步骤:

4、(1)获取原语料文本集合;

5、(2)设计文本关键词的提取格式,对原语料文本集合中的部分文本进行预处理得到关键词,构造样本对数据集,所述样本对数据集包含部分原语料文本、文本对应的关键词及关键词在文本中的位置索引;

6、(3)利用样本对数据集训练深度神经网络,使得深度神经网络能够有效提取原语料文本的关键词;使用训练得到的深度神经网络处理剩余原语料文本集合,得到全部原语料文本对应的关键词;

7、(4)在第一阶段,计算查询文本与每个原语料文本的余弦相似度值,获得查询文本的相关语料文本集合,所述的相关语料文本集合作为第一阶段的语料召回结果;在第二阶段,根据查询文本的关键词与每个相关语料文本的关键词,计算基于最小编辑距离的相似度和基于最长公共子序列长度的相似度,作为第二阶段语义相似的补充策略;

8、(5)将步骤(4)中两个阶段得到的余弦相似度值、基于最小编辑距离的相似度和基于最长公共子序列长度的相似度相加得到最终相似度,根据最终相似度的大小依次呈现相关语料文本。

9、进一步的,所述的步骤(1)具体为:获取同一主题的文本信息,并将获取到的文本信息按照段落进行抽取保存,作为原语料文本集合。

10、进一步的,所述的步骤(2)中,预处理包括:将原语料文本集合输入chatgpt中进行关键词提取,将返回的结果进行二次审核,得到原语料文本对应的关键词及关键词在文本中的位置索引。

11、进一步的,所述的步骤(3)中,所述深度神经网络为w2ner模型。

12、进一步的,所述步骤(4)具体为:

13、(4.1)采用sbert模型获取原语料文本集合中每一个语料文本的嵌入表示;

14、(4.2)针对每一个输入的查询文本,获取其关键词,采用sbert模型其嵌入表示,利用查询文本的嵌入表示和原语料文本的嵌入表示进行相似度计算,召回m个相关语料文本保存为召回池,同时保存每个相关语料文本与查询文本的余弦相似度值;

15、(4.3)将每个相关语料文本对应的关键词逐个和查询文本的关键词进行最小编辑距离和最长公共子序列长度的计算,得到基于最小编辑距离的相似度和基于最长公共子序列长度的相似度。

16、进一步的,所述的基于最小编辑距离的相似度的计算具体为:

17、

18、其中,similarityi表示召回的第i条相关语料文本与查询文本的基于最小编辑距离的相似度,xsource表示相关语料文本的关键词,ytarget表示查询文本的关键词,max(.,.)表示对两个关键词的长度取最大值,change_stepsi表示第i条相关语料文本的关键词和查询文本的关键词的最小编辑距离,所述最小编辑距离为一个字符串变成另外一个字符串的最小编辑次数,所述编辑包括插入、删除和替换。

19、进一步的,若相关语料文本或查询文本不止含有一个关键词,则需要将查询文本的每一个关键词和相关语料文本每一个关键词进行基于最小编辑距离的相似度计算,取平均值作为两个文本的基于最小编辑距离的相似度。

20、进一步的,所述的基于最长公共子序列长度的相似度的计算具体为:

21、

22、其中,similarity′i表示召回的第i条相关语料文本与查询文本的基于最长公共子序列长度的相似度,xsource表示相关语料文本的关键词,ytarget表示查询文本的关键词,max(.,.)表示对两个关键词的长度取最大值,word_diffi表示第i条相关语料文本的关键词和查询文本的关键词的最长公共子序列长度;

23、若相关语料文本或查询文本不止含有一个关键词,则需要将查询文本的每一个关键词和相关语料文本每一个关键词进行基于最长公共子序列长度的相似度计算,取平均值作为两个文本的最长公共子序列长度的相似度。

24、本专利技术的有益效果:

25、本专利技术设计了一套完整的基于深度学习的多特征二阶段语义相似度度量方法,包括数据获取、数据集的构造、构造模型、特征计算、相似度计算等多个阶段。最终借用实体命名识别任务的w2ner学习到关键词的提取,用于对原语料文本进行预处理,实验表明模型的关键词提取能力达到了惊人的90%,后续使用最小编辑距离和最长公共子序列对关键词进行匹配,用来表征特征词之间的相似度。该整体方案能够分为二阶段从多角度对段落语义相似度进行计算,增加了召回的可解释性,在一定程度上能够提高用户的搜索体验感,有望在垂直领域进行应用。

本文档来自技高网...

【技术保护点】

1.一种基于深度学习的多特征二阶段语义相似度度量方法,其特征在于分两个阶段对语义相似度进行匹配计算,包括以下步骤:

2.根据权利要求1所述的一种基于深度学习的多特征二阶段语义相似度度量方法,其特征在于,所述的步骤(1)具体为:获取同一主题的文本信息,并将获取到的文本信息按照段落进行抽取保存,作为原语料文本集合。

3.根据权利要求1所述的一种基于深度学习的多特征二阶段语义相似度度量方法,其特征在于,所述的步骤(2)中,预处理包括:将原语料文本集合输入chatGPT中进行关键词提取,将返回的结果进行二次审核,得到原语料文本对应的关键词及关键词在文本中的位置索引。

4.根据权利要求1所述的一种基于深度学习的多特征二阶段语义相似度度量方法,其特征在于,所述的步骤(3)中,所述深度神经网络为W2NER模型。

5.根据权利要求1所述的一种基于深度学习的多特征二阶段语义相似度度量方法,其特征在于,所述步骤(4)具体为:

6.根据权利要求5所述的一种基于深度学习的多特征二阶段语义相似度度量方法,其特征在于,采用SBERT模型获取原语料文本集合和查询文本的嵌入表示。

7.根据权利要求1所述的一种基于深度学习的多特征二阶段语义相似度度量方法,其特征在于,所述的基于最小编辑距离的相似度的计算具体为:

8.根据权利要求7所述的一种基于深度学习的多特征二阶段语义相似度度量方法,其特征在于,若相关语料文本或查询文本不止含有一个关键词,则需要将查询文本的每一个关键词和相关语料文本每一个关键词进行基于最小编辑距离的相似度计算,取平均值作为两个文本的基于最小编辑距离的相似度。

9.根据权利要求1所述的一种基于深度学习的多特征二阶段语义相似度度量方法,其特征在于,所述的基于最长公共子序列长度的相似度的计算具体为:

10.根据权利要求9所述的一种基于深度学习的多特征二阶段语义相似度度量方法,其特征在于,若相关语料文本或查询文本不止含有一个关键词,则需要将查询文本的每一个关键词和相关语料文本每一个关键词进行基于最长公共子序列长度的相似度计算,取平均值作为两个文本的最长公共子序列长度的相似度。

...

【技术特征摘要】

1.一种基于深度学习的多特征二阶段语义相似度度量方法,其特征在于分两个阶段对语义相似度进行匹配计算,包括以下步骤:

2.根据权利要求1所述的一种基于深度学习的多特征二阶段语义相似度度量方法,其特征在于,所述的步骤(1)具体为:获取同一主题的文本信息,并将获取到的文本信息按照段落进行抽取保存,作为原语料文本集合。

3.根据权利要求1所述的一种基于深度学习的多特征二阶段语义相似度度量方法,其特征在于,所述的步骤(2)中,预处理包括:将原语料文本集合输入chatgpt中进行关键词提取,将返回的结果进行二次审核,得到原语料文本对应的关键词及关键词在文本中的位置索引。

4.根据权利要求1所述的一种基于深度学习的多特征二阶段语义相似度度量方法,其特征在于,所述的步骤(3)中,所述深度神经网络为w2ner模型。

5.根据权利要求1所述的一种基于深度学习的多特征二阶段语义相似度度量方法,其特征在于,所述步骤(4)具体为:

6.根据权利要求5所述的一种基于深度学习的多特征二阶段语义相似度度量...

【专利技术属性】
技术研发人员:丁勇胡亚坤刘琳琳牛乐乐何乐年
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1