一种基于prompt的文本相似度计算方法及系统技术方案

技术编号:35249004 阅读:19 留言:0更新日期:2022-10-19 09:57
本发明专利技术提出了一种基于prompt的文本相似度计算方法及系统,属于自然语言处理的技术领域。其中方法包括以下步骤:首先读取源数据,并对源数据进行预处理分析;其次,将处理后的数据进行prompt化处理;再次,对prompt化后的数据进行向量化表示,并进行自动特征抽取;从次,采用注意力机制对向量化后的数据进行高价值信息的特征提取;最后,对提取到的特征数据进行相似度比对,获取文本之间的相似度大小。本发明专利技术针对文本相似度分析,引入prompt模块的新模式,优化了分析模型,在小样本或零样本场景下,可以有效提高模型效果,使得预训练语言模型提取的特征更自然地用于下游任务,特征质量高。高。高。

【技术实现步骤摘要】
一种基于prompt的文本相似度计算方法及系统


[0001]本专利技术涉及自然语言处理的
,特别是涉及一种基于prompt的文本相似度计算方法及系统。

技术介绍

[0002]在智能质检领域,经常需要对两句话进行相似度分析,以判断两文本对话之间的相似程度。现有技术中常采用的相似度算法可以大致分为三类:无监督相似度计算、有监督相似度计算,以及有监督加无监督相似度计算。
[0003]其中,有无监督相似度计算通过对大规模语料库进行训练得到词向量,随后对文本进行分词等操作,得到每个词对应的词向量,最后对文本的所有词的词向量进行求和计算,获得该文本的句子向量。通过对两文本的句子向量进行距离度量获得文本之间的相似度值。
[0004]有监督相似度计算通过在具有标注语料的条件下进行模型建模,利用机器学习和深度学习算法进行端到端模型训练,直接求解出文本的相似度值。
[0005]有监督加无监督相似度计算将无监督学习和有监督学习结合起来,用于提高无监督学习的准确率并且降低有监督学习的时间成本,无监督学习的弊端在于句向量的生成和生成的句向量的质量差,可以使用有监督学习的方法去获取一个文本的句向量,而对于有监督学习的时间复杂度太高的问题,可以使用蒸馏的方式来降低时间成本。
[0006]但是现有技术中采用的相似度算法在实现相似度计算过程中,存在以下缺点:1.采用预训练语言练模型时,存在过高的时间消耗成本,同时还需要大量的标注语料进行训练和模型的微调;2.采用孪生结构将两个文本投影到相同的网络结构中进行特征提取后,在通过距离计算分析相似度的方式,会出现维度高、得分低,或者维度低、得分高的情况,而且当出现预料没有文本数据时,效果不佳;3.采用LSTM作为时序模型时,在并行处理上存在一定的劣势,同时模型复杂,计算量较大费时;4.基于stacking的方式虽然效果好,但是模型的结构会非常复杂,计算量大,耗费时间长;5.采用预训练语言模型的方式,存在模型结构复杂、参数过多、网络结构固定、应用场景受限、优化空间有限的问题;6.采用Bi

LSTM的方式,过于依赖与上一时刻和下一时刻的状态,速度慢,且无法进行并行处理。

技术实现思路

[0007]专利技术目的:提出一种基于prompt的文本相似度计算方法及系统,以解决现有技术存在的上述问题。针对文本相似度分析,引入prompt模块分析的新模式,优化了分析模型,
在小样本或零样本场景下,可以有效提高模型效果,使得预训练语言模型提取的特征更自然地用于下游任务,特征质量高。
[0008]技术方案:第一方面,提出了一种基于prompt的文本相似度计算方法,该方法具体包括以下步骤:步骤1、构建数据读取模块,并读取数据库中的源数据;步骤2、对源数据进行预处理分析,获得第一数据;步骤3、将第一数据传输至构建的prompt模块中,获得第二数据;步骤4、将第二数据传输至构建的预训练语言模型中,获得第三数据;步骤5、构建特征深度提取模块,并对第三数据进行特征提取,获得数据特征集;步骤6、构建相似度分析模块,并对获取到的数据特征集进行相似度分析;步骤7、输出相似度分析结果。
[0009]在第一方面的一些可实现方式中,当所述源数据为语音数据时,在进行预处理分析之前,还包括语音数据转文本信息的操作;随后构建纠错模块对完成转换后的文本信息进行纠错预处理。
[0010]实现文本信息纠错的过程中,具体包括以下步骤:步骤2.1、构建纠错模块并接收完成转换后的文本信息,提取query特征;步骤2.2、将所述query特征转换为XLNet中文模型字典里的字典序号;所述字典序号为:句子特征和位置特征;步骤2.3、判断文本信息长度与序列最大长度的数值大小;当文本信息长度小于序列最大长度时,补0直到长度满足后跳转至步骤2.4;反之,直接跳转至步骤2.4;步骤2.4、添加拼音向量和词性向量至文本信息中;步骤2.5、计算query特征中每个字符出现的概率;步骤2.6、根据计算出的概率,找出疑似错字,并加入构建的疑似错误集中;步骤2.7、将所述疑似错误集中的数据引入纠正候选池中;步骤2.8、利用个句子困惑度对纠正候选池中的数据进行评价,并排序;步骤2.9、选取困惑度最小的数据作为最终的纠错结果。
[0011]利用所述prompt模块获取第二数据的过程中,具体包括以下步骤:步骤3.1、构建文本信息转化函数;步骤3.2、利用所述转化函数获取prompt化的文本数据;步骤3.3、输出prompt化的文本数据。
[0012]将获取到的第二数据传输至构建的预训练语言模型中,实现特征的向量化表示,并改进行特征的自动提取;为了提高预训练语言模型的分辨能力和鲁棒性,进一步在预训练语言模型中添加对抗训练模块。
[0013]采用构建的特征深度提取模块,对文本信息进行特征提取的过程中,采用注意力层从关键的部分进行特征提取,得到深层次的语义特征信息。针对所述注意力层的数量偏多导致梯度爆炸和消失的现象,在特征深度提取模块前后加上残差网络结构。
[0014]对获取到的数据特征集进行相似度分析时,采用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小;当余弦值越接近1,夹角越接近0度,两个向量越相似;反之,则越不相似。
[0015]对于两个n维的样本点和,,那么、两者之间的夹角余弦值表达式为:当相似度越小时,距离越大;相似度越大,距离越小。
[0016]第二方面,提出一种基于prompt的文本相似度计算系统,用于相似度计算方法,该系统具体包括以下模块:数据读取模块,用于读取数据库中待分析的数据;预处理模块,用于对读取到的数据进行预处理;Prompt模块,用于实现数据的prompt化处理;预训练模块,用于对数据进行自动特征抽取;特征深度提取模块,用于对文本信息进行特征提取;相似度比对模块,用于比对文本之间的相似度程度。
[0017]有益效果:本专利技术提出了一种基于prompt的文本相似度计算方法及系统,针对文本相似度分析,引入prompt模块分析的新模式,优化了分析模型,在小样本或零样本场景下,可以有效提高分析结果。另外,因为任务形式和预训练语言模型本身相适应,本专利技术提出的技术方案不需要为下游任务新增一个分类器,仅通过建立一个简单的映射,将prompt范式的输出转变成下游任务需要的输出形式即可,达到在不同下游任务中,可以方便进行调节的目的,比预训练更方便。
附图说明
[0018]图1为本专利技术的数据处理流程图。
[0019]图2为本专利技术纠错模块示意图。
[0020]图3为本专利技术文本拼接流程图。
[0021]图4为本专利技术attention结构示意图。
具体实施方式
[0022]在下文的描述中,给出了大量具体的细节以便提供对本专利技术更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本专利技术可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本专利技术发生混淆,对于本领域公知的一些技术特征未进行描述。
...

【技术保护点】

【技术特征摘要】
1.一种基于prompt的文本相似度计算方法,其特征在于,具体包括以下步骤:步骤1、构建数据读取模块,并读取数据库中的源数据;步骤2、对源数据进行预处理分析,获得第一数据;步骤3、将第一数据传输至构建的prompt模块中,获得第二数据;步骤4、将第二数据传输至构建的预训练语言模型中,获得第三数据;步骤5、构建特征深度提取模块,并对第三数据进行特征提取,获得数据特征集;步骤6、构建相似度分析模块,并对获取到的数据特征集进行相似度分析;步骤7、输出相似度分析结果。2.根据权利要求1所述的一种基于prompt的文本相似度计算方法,其特征在于,当所述源数据为语音数据时,在进行预处理分析之前,还包括语音数据转文本信息的操作;随后构建纠错模块对完成转换后的文本信息进行纠错预处理。3.根据权利要求2所述的一种基于prompt的文本相似度计算方法,其特征在于,实现文本信息纠错的过程中,具体包括以下步骤:步骤2.1、构建纠错模块并接收完成转换后的文本信息,提取query特征;步骤2.2、将所述query特征转换为XLNet中文模型字典里的字典序号;所述字典序号为:句子特征和位置特征;步骤2.3、判断文本信息长度与序列最大长度的数值大小;当文本信息长度小于序列最大长度时,补0直到长度满足后跳转至步骤2.4;反之,直接跳转至步骤2.4;步骤2.4、添加拼音向量和词性向量至文本信息中;步骤2.5、计算query特征中每个字符出现的概率;步骤2.6、根据计算出的概率,找出疑似错字,并加入构建的疑似错误集中;步骤2.7、将所述疑似错误集中的数据引入纠正候选池中;步骤2.8、利用句子困惑度对纠正候选池中的数据进行评价,并排序;步骤2.9、选取困惑度最小的数据作为最终的纠错结果。4.根据权利要求1所述的一种基于prompt的文本相似度计算方法,其特征在于,利用所述prompt模块获取第二数据的过程中,具体包括以下步骤:步骤3.1、构建文本...

【专利技术属性】
技术研发人员:张玮李婕郭欣解锦明董陵李电祥葛丽丽
申请(专利权)人:江苏移动信息系统集成有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1