一种基于prompt的文本相似度计算方法及系统技术方案

技术编号：35249004 阅读：19 留言：0更新日期：2022-10-19 09:57

本发明专利技术提出了一种基于prompt的文本相似度计算方法及系统，属于自然语言处理的技术领域。其中方法包括以下步骤：首先读取源数据，并对源数据进行预处理分析；其次，将处理后的数据进行prompt化处理；再次，对prompt化后的数据进行向量化表示，并进行自动特征抽取；从次，采用注意力机制对向量化后的数据进行高价值信息的特征提取；最后，对提取到的特征数据进行相似度比对，获取文本之间的相似度大小。本发明专利技术针对文本相似度分析，引入prompt模块的新模式，优化了分析模型，在小样本或零样本场景下，可以有效提高模型效果，使得预训练语言模型提取的特征更自然地用于下游任务，特征质量高。高。高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于prompt的文本相似度计算方法及系统

[0001]本专利技术涉及自然语言处理的
，特别是涉及一种基于prompt的文本相似度计算方法及系统。

技术介绍

[0002]在智能质检领域，经常需要对两句话进行相似度分析，以判断两文本对话之间的相似程度。现有技术中常采用的相似度算法可以大致分为三类：无监督相似度计算、有监督相似度计算，以及有监督加无监督相似度计算。
[0003]其中，有无监督相似度计算通过对大规模语料库进行训练得到词向量，随后对文本进行分词等操作，得到每个词对应的词向量，最后对文本的所有词的词向量进行求和计算，获得该文本的句子向量。通过对两文本的句子向量进行距离度量获得文本之间的相似度值。
[0004]有监督相似度计算通过在具有标注语料的条件下进行模型建模，利用机器学习和深度学习算法进行端到端模型训练，直接求解出文本的相似度值。
[0005]有监督加无监督相似度计算将无监督学习和有监督学习结合起来，用于提高无监督学习的准确率并且降低有监督学习的时间成本，无监督学习的弊端在于句向量的生成和生成的句向量的质量差，可以使用有监督学习的方法去获取一个文本的句向量，而对于有监督学习的时间复杂度太高的问题，可以使用蒸馏的方式来降低时间成本。
[0006]但是现有技术中采用的相似度算法在实现相似度计算过程中，存在以下缺点：1.采用预训练语言练模型时，存在过高的时间消耗成本，同时还需要大量的标注语料进行训练和模型的微调；2.采用孪生结构将两个文本投影到相同的网络结构中进行特征提取

【技术保护点】

【技术特征摘要】
1.一种基于prompt的文本相似度计算方法，其特征在于，具体包括以下步骤：步骤1、构建数据读取模块，并读取数据库中的源数据；步骤2、对源数据进行预处理分析，获得第一数据；步骤3、将第一数据传输至构建的prompt模块中，获得第二数据；步骤4、将第二数据传输至构建的预训练语言模型中，获得第三数据；步骤5、构建特征深度提取模块，并对第三数据进行特征提取，获得数据特征集；步骤6、构建相似度分析模块，并对获取到的数据特征集进行相似度分析；步骤7、输出相似度分析结果。2.根据权利要求1所述的一种基于prompt的文本相似度计算方法，其特征在于，当所述源数据为语音数据时，在进行预处理分析之前，还包括语音数据转文本信息的操作；随后构建纠错模块对完成转换后的文本信息进行纠错预处理。3.根据权利要求2所述的一种基于prompt的文本相似度计算方法，其特征在于，实现文本信息纠错的过程中，具体包括以下步骤：步骤2.1、构建纠错模块并接收完成转换后的文本信息，提取query特征；步骤2.2、将所述query特征转换为XLNet中文模型字典里的字典序号；所述字典序号为：句子特征和位置特征；步骤2.3、判断文本信息长度与序列最大长度的数值大小；当文本信息长度小于序列最大长度时，补0直到长度满足后跳转至步骤2.4；反之，直接跳转至步骤2.4；步骤2.4、添加拼音向量和词性向量至文本信息中；步骤2.5、计算query特征中每个字符出现的概率；步骤2.6、根据计算出的概率，找出疑似错字，并加入构建的疑似错误集中；步骤2.7、将所述疑似错误集中的数据引入纠正候选池中；步骤2.8、利用句子困惑度对纠正候选池中的数据进行评价，并排序；步骤2.9、选取困惑度最小的数据作为最终的纠错结果。4.根据权利要求1所述的一种基于prompt的文本相似度计算方法，其特征在于，利用所述prompt模块获取第二数据的过程中，具体包括以下步骤：步骤3.1、构建文本...

【专利技术属性】
技术研发人员：张玮，李婕，郭欣，解锦明，董陵，李电祥，葛丽丽，
申请(专利权)人：江苏移动信息系统集成有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人