一种文本处理方法及设备技术

技术编号:35821775 阅读:17 留言:0更新日期:2022-12-03 13:47
本发明专利技术提供一种文本处理方法及设备,可以获得文献关键词生成模型;其中,文献关键词生成模型是基于模型处理方式生成的,模型处理方式至少包括训练方式,训练方式是基于提示学习范式生成的至少一个训练样本,对预训练语言模型进行训练的;获得目标文献的摘要文本和题目文本;将目标文献的摘要文本和题目文本输入至文献关键词生成模型中;获得由文献关键词生成模型生成并输出的目标文献的至少一个文献关键词。本发明专利技术可以获得具备预测和生成文献关键词能力的文献关键词生成模型,通过使用文献关键词生成模型,来预测和生成目标文献的文献关键词,无需通过人工提取的处理方式来从文献中提取出文献关键词,可以有效提高文献关键词的生成效率。生成效率。生成效率。

【技术实现步骤摘要】
一种文本处理方法及设备


[0001]本专利技术涉及文本处理
,尤其涉及一种文本处理方法及设备。

技术介绍

[0002]随着互联网科学的纵深发展,电子文献的作用愈发重要。
[0003]在当前的现实生产环境中,对于高质量相关性电子文献的需求呈现爆发式增长,如医学文献。具体的,工作人员可以通过检索文献关键词的方式,来查找其需要的相关电子文献。现有技术可以由人工确定电子文献的关键词。
[0004]但是,当电子文献的数量较多时,通过人工处理方式来生成电子文献关键词的处理效率较低。

技术实现思路

[0005]本专利技术提供一种文本处理方法及设备,用以解决现有技术中通过人工处理方式来生成文献关键词的缺陷,有效提高文献关键词的生成效率。
[0006]第一方面,本专利技术提供一种文本处理方法,包括:
[0007]获得文献关键词生成模型;其中,所述文献关键词生成模型是基于模型处理方式生成的,所述模型处理方式至少包括训练方式,所述训练方式是基于提示学习范式生成的至少一个训练样本,对预训练语言模型进行训练的;
[0008]获得目标文献的摘要文本和题目文本;
[0009]将所述目标文献的摘要文本和题目文本输入至所述文献关键词生成模型中;
[0010]获得由所述文献关键词生成模型生成并输出的所述目标文献的至少一个文献关键词。
[0011]进一步地,当所述模型处理方式仅包括所述训练方式时,所述获得文献关键词生成模型,包括:
[0012]获得在文献描述模板的基础上生成的至少一个与文献相对应的文献描述文本;其中,所述文献描述模板为基于提示学习范式设计出的用于描述文献题目和文献关键词的文本模板,各所述文献描述文本均是通过将文献的文献题目和文献关键词分别填充至所述文献描述模板中的预定义位置处而生成的;
[0013]分别将各所述文献描述文本和相对应的文献摘要文本确定为各所述训练样本;
[0014]使用各所述训练样本对所述预训练语言模型进行训练,以训练所述预训练语言模型预测文献关键词的能力,将训练好的所述预训练语言模型确定为所述文献关键词生成模型。
[0015]进一步地,所述模型处理方式还包括:反向传播优化方式;所述预训练语言模型中设置有旁支模型结构;所述获得文献关键词生成模型,包括:
[0016]在使用所述训练方式对所述预训练语言模型进行训练的过程中,通过所述旁支模型结构对所述预训练语言模型的反向传播进行优化;
[0017]将训练好的所述预训练语言模型确定为所述文献关键词生成模型。
[0018]进一步地,所述模型处理方式还包括:白化操作方式;所述获得文献关键词生成模型,包括:
[0019]利用所述白化操作方式对所述预训练语言模型进行白化操作处理,获得处理后模型;
[0020]使用所述训练方式对所述处理后模型进行训练,将训练好的所述处理后模型确定为所述文献关键词生成模型。
[0021]进一步地,所述模型处理方式还包括模型评估方式,所述模型评估方式中包括预定义的模型评估指标,所述模型评估指标包括样本分类准确率阈值和综合指标阈值,所述综合指标阈值为关于精度与召回率的综合指标的阈值;所述获得文献关键词生成模型,包括:
[0022]使用所述训练方式对所述预训练语言模型进行训练,获得已训练的所述预训练语言模型;
[0023]获得已训练的所述预训练语言模型的样本分类准确率和综合指标值;
[0024]如果所述样本分类准确率不小于所述样本分类准确率阈值,且所述综合指标值不小于所述综合指标阈值,则确定已训练的所述预训练语言模型通过评估,将已训练的所述预训练语言模型确定为所述文献关键词生成模型。
[0025]进一步地,所述获得文献关键词生成模型,还包括:
[0026]如果所述样本分类准确率小于所述样本分类准确率阈值,或所述综合指标值小于所述综合指标阈值,则确定已训练的所述预训练语言模型未通过评估,返回执行所述使用所述训练方式对所述预训练语言模型进行训练的步骤,直至通过评估以获得所述文献关键词生成模型。
[0027]第二方面,本专利技术提供一种文本处理装置,包括:第一获得单元、第二获得单元、第一输入单元和第三获得单元,其中:
[0028]所述第一获得单元,用于获得文献关键词生成模型;其中,所述文献关键词生成模型是基于模型处理方式生成的,所述模型处理方式至少包括训练方式,所述训练方式是基于提示学习范式生成的至少一个训练样本,对预训练语言模型进行训练的;
[0029]所述第二获得单元,用于获得目标文献的摘要文本和题目文本;
[0030]所述第一输入单元,用于将所述目标文献的摘要文本和题目文本输入至所述文献关键词生成模型中;
[0031]所述第三获得单元,用于获得由所述文献关键词生成模型生成并输出的所述目标文献的至少一个文献关键词。
[0032]进一步地,当所述模型处理方式仅包括所述训练方式时,所述第一获得单元包括:第四获得单元、第一确定单元、第一训练单元和第二确定单元;
[0033]所述第四获得单元,用于获得在文献描述模板的基础上生成的至少一个与文献相对应的文献描述文本;其中,所述文献描述模板为基于提示学习范式设计出的用于描述文献题目和文献关键词的文本模板,各所述文献描述文本均是通过将文献的文献题目和文献关键词分别填充至所述文献描述模板中的预定义位置处而生成的;
[0034]所述第一确定单元,用于分别将各所述文献描述文本和相对应的文献摘要文本确
定为各所述训练样本;
[0035]所述第一训练单元,用于使用各所述训练样本对所述预训练语言模型进行训练,以训练所述预训练语言模型预测文献关键词的能力;
[0036]所述第二确定单元,用于将训练好的所述预训练语言模型确定为所述文献关键词生成模型。
[0037]进一步地,所述模型处理方式还包括:反向传播优化方式;所述预训练语言模型中设置有旁支模型结构;所述第一获得单元,包括:优化单元和第三确定单元;其中:
[0038]所述优化单元,用于在使用所述训练方式对所述预训练语言模型进行训练的过程中,通过所述旁支模型结构对所述预训练语言模型的反向传播进行优化;
[0039]所述第三确定单元,用于将训练好的所述预训练语言模型确定为所述文献关键词生成模型。
[0040]进一步地,所述模型处理方式还包括:白化操作方式;所述第一获得单元,包括:处理单元、第五获得单元、第二训练单元和第四确定单元;
[0041]所述处理单元,用于利用所述白化操作方式对所述预训练语言模型进行白化操作处理;
[0042]所述第五获得单元,用于获得处理后模型;
[0043]所述第二训练单元,用于使用所述训练方式对所述处理后模型进行训练;
[0044]所述第四确定单元,用于将训练好的所述处理后模型确定为所述文献关键词生成模型。
[0045]进一步地,所述模型处理方式还包括模型评估本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获得文献关键词生成模型;其中,所述文献关键词生成模型是基于模型处理方式生成的,所述模型处理方式至少包括训练方式,所述训练方式是基于提示学习范式生成的至少一个训练样本,对预训练语言模型进行训练的;获得目标文献的摘要文本和题目文本;将所述目标文献的摘要文本和题目文本输入至所述文献关键词生成模型中;获得由所述文献关键词生成模型生成并输出的所述目标文献的至少一个文献关键词。2.根据权利要求1所述的文本处理方法,其特征在于,当所述模型处理方式仅包括所述训练方式时,所述获得文献关键词生成模型,包括:获得在文献描述模板的基础上生成的至少一个与文献相对应的文献描述文本;其中,所述文献描述模板为基于提示学习范式设计出的用于描述文献题目和文献关键词的文本模板,各所述文献描述文本均是通过将文献的文献题目和文献关键词分别填充至所述文献描述模板中的预定义位置处而生成的;分别将各所述文献描述文本和相对应的文献摘要文本确定为各所述训练样本;使用各所述训练样本对所述预训练语言模型进行训练,以训练所述预训练语言模型预测文献关键词的能力,将训练好的所述预训练语言模型确定为所述文献关键词生成模型。3.根据权利要求1所述的文本处理方法,其特征在于,所述模型处理方式还包括:反向传播优化方式;所述预训练语言模型中设置有旁支模型结构;所述获得文献关键词生成模型,包括:在使用所述训练方式对所述预训练语言模型进行训练的过程中,通过所述旁支模型结构对所述预训练语言模型的反向传播进行优化;将训练好的所述预训练语言模型确定为所述文献关键词生成模型。4.根据权利要求1所述的文本处理方法,其特征在于,所述模型处理方式还包括:白化操作方式;所述获得文献关键词生成模型,包括:利用所述白化操作方式对所述预训练语言模型进行白化操作处理,获得处理后模型;使用所述训练方式对所述处理后模型进行训练,将训练好的所述处理后模型确定为所述文献关键词生成模型。5.根据权利要求1所述的文本处理方法,其特征在于,所述模型处理方式还包括模型评估方式,所述模型评估方式中包括预定义的模型评估指标,所述模型评估指标包括样本分类准确率阈值和综合指标阈值,所述综合指标阈值为关于精度与召回率的综合指标的阈值;所述获得文献关键词生成模型,包括:使用所述训练方式对所述预训练语言模型进行训练,获得已训练的所述预训练语言模型;获得已训练的所述预训练语言模型的样本分类准确率和综合指标值;如果所述样本分类准确率不小于所述样本分类准确率阈值,且所...

【专利技术属性】
技术研发人员:王则远任丽军刘鹏张震
申请(专利权)人:灵犀量子北京医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1