白话摘要生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:39422826 阅读:12 留言:0更新日期:2023-11-19 16:11
本发明专利技术涉及金融领域,可应用于金融问答社区等应用场景,公开了一种白话摘要生成方法、装置、计算机设备及存储介质,所述方法包括:将目标训练集的文本数据进行分词,并利用分词后的文本数据构建字典;抽取所述字典中所有的专业词汇,形成专业词汇集,并计算所述字典中未被抽取的词汇的概率分布;调用预设函数表示所述字典内的白话词和所述专业词汇的权重信息,利用所述权重信息、所述概率分布和所述预设函数计算预设摘要生成模型的损失函数;根据用户指令调整所述预设摘要生成模型的损失函数中的权重参数,并生成所述权重参数对应白话化程度的摘要,达到达到根据实际需求降低金融文章中摘要的专业性、方便读者理解的技术效果。方便读者理解的技术效果。方便读者理解的技术效果。

【技术实现步骤摘要】
白话摘要生成方法、装置、计算机设备及存储介质


[0001]本申请涉及到金融领域,特别涉及到一种白话摘要生成方法、装置、计算机设备及存储介质。

技术介绍

[0002]金融领域中,包括金融分析在内的很多本领域文章都包含许多专业词汇,为了方便读者快速、便捷理解文章大意,需要利用计算机生成较为白话化的摘要。当前,金融领域利用计算机生成摘要主要可以分为两种方法:抽取式和生成式。其中抽取式通过分辨并抽取金融领域文章中较为重要的句子组成摘要。而生成式一般使用的端到端的序列生成模型,例如LSTM(Long Short

Term Memory,长短期记忆网络)等,通过输入文章对其进行编码,再进行解码生成文章的摘要。显然地,由于抽取式生成的摘要内容摘抄自文章中的不同位置,此方法生成的摘要内容往往存在语句不通顺的问题,因而抽取式在当前的实际应用场景较少。而通过当前应用较广的生成式方法生成的摘要,一般对输入的文章文字内容风格较为敏感,如果输入的文章是例如金融分析等专业性比较强的文章,那么生成的摘要一般也非常具备专业性,会让读者较难理解。
[0003]由此可见,现有的金融领域中很多文章专业词汇较多,导致的生成摘要内容不够通顺或专业性相对较强,进一步造成生成的摘要较难理解的问题。

技术实现思路

[0004]本专利技术的主要目的为提供一种白话摘要生成方法、装置、计算机设备及存储介质,旨在解决由于金融领域中很多文章专业词汇较多,导致的生成摘要内容不够通顺或专业性相对较强,进一步造成生成的摘要较难理解的问题
[0005]为了实现上述专利技术目的,本专利技术第一方面提出一种白话摘要生成方法,所述方法包括:
[0006]将目标训练集的文本数据进行分词,并利用分词后的文本数据构建字典;
[0007]抽取所述字典中所有的专业词汇,形成专业词汇集,并计算所述字典中未被抽取的词汇的概率分布;
[0008]调用预设函数表示所述字典内的白话词和所述专业词汇的权重信息,利用所述权重信息、所述概率分布和所述预设函数计算预设摘要生成模型的损失函数;
[0009]根据用户指令调整所述预设摘要生成模型的损失函数中的权重参数,并生成所述权重参数对应白话化程度的摘要。
[0010]进一步地,所述抽取所述字典中所有的专业词汇的步骤,包括:
[0011]使用NER模型抽取所述字典中所有的专业词汇。
[0012]进一步地,所述计算所述字典中未被抽取的词汇的概率分布的步骤之前,包括:
[0013]利用第一预设规则从预设网站中爬取拓展词汇,并将所述拓展词汇添加到所述字典中。
[0014]进一步地,所述预设函数为β()函数,所述β()函数的定义为
[0015][0016]其中,y为所述字典中任一词;Pmodel(y)为y在所述训练集中出现的概率;count()为y在所述训练集中出现的次数;|Y|为所述训练集中包含重复词在内的全部词的个数;P*(y)为通过预设规则调整字典内容后y出现的概率。
[0017]进一步地,所述计算所述字典中未被抽取的词汇的概率分布的步骤,包括:
[0018]令P(白)=1

Pmodel(y专);
[0019]再令P*(y白)=Pmodel(y白)/P(白);
[0020]其中,P(白)为所述字典中白话词出现的总概率;Pmodel(y专)为所述字典中任一专业词汇(y专)出现的概率;P*(y白)为任一白话词(y白)在所述字典中未被抽取的词汇中出现的概率;Pmodel(y白)为通过预设规则调整字典内容后所述字典中任一白话词(y白)出现的概率。
[0021]进一步地,所述摘要生成模型为LSTM+attention模型;所述LSTM+attention模型包括第一损失函数和第二损失函数;所述使用预设函数表示所述字典内的白话词和所述专业词汇的权重信息,结合所述权重信息和所述概率分布,推导所述预设函数计算预设摘要生成模型的损失函数的步骤,包括:
[0022]令
[0023]令
[0024]其中,为所述第一损失函数,为所述第一损失函数,为所述第二损失函数;p
θ
为LSTM模型预测当前词y
c
的概率;t为所述利用预设函数表示所述字典内的白话词和所述专业词汇的权重的加权处理过程中,当前词y
c
被加权的时刻;C
t
为所述加权处理过程中第t个被加权的词,其中t≤T,T=1,2,3,

;|y|为待生成的摘要所包含的词的个数;x为所述目标训练集所包含的词的个数;i为一个训练mini

batch里当前词的序号;t表示当前词在所述字典里第t个被加权。
[0025]进一步地,所述调整所述预设摘要生成模型中的权重参数,生成所述权重参数对应白话化程度的摘要的步骤,包括:
[0026]根据用户指令,调整所述预设摘要生成模型中的权重参数α的数值;
[0027]令损失函数再令所述预设摘要生成模型采用所述损失函数;
[0028]利用所述预设摘要生成模型生成摘要。
[0029]本专利技术第二方面提出一种白话摘要生成装置,包括:
[0030]构建模块,用于将目标训练集的文本数据进行分词,并利用分词后的文本数据构建字典;
[0031]抽取模块,用于抽取所述字典中所有的专业词汇,形成专业词汇集,并计算所述字典中未被抽取的词汇的概率分布;
[0032]加权模块,用于使用预设函数表示所述字典内的白话词和所述专业词汇的权重信息,结合所述权重信息和所述概率分布,推导所述预设函数计算预设摘要生成模型的损失函数;
[0033]生成模块,用于调整所述预设摘要生成模型损失函数中的权重参数,生成所述权重参数对应白话化程度的摘要。
[0034]本专利技术第三方面提出一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项白话摘要生成方法的步骤。
[0035]本专利技术第四方面提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项白话摘要生成方法的步骤。
[0036]本专利技术的一种白话摘要生成方法、装置、计算机设备及存储介质,运用于金融领域,所述方法包括:将目标训练集的文本数据进行分词,并利用分词后的所有词构建字典;抽取所述字典中所有的专业词汇,形成专业词汇集,并计算所述字典中未被抽取的词汇的概率分布;利用预设函数表示所述字典内的白话词和所述专业词汇的权重,并结合所述概率分布,计算所述预设函数计算预设摘要生成模型的损失函数;后续可以通过自由调整所述预设摘要生成模型中的权重参数,生成所述权重参数对应白话化程度的摘要,达到根据实际需求降低金融文章中摘要的专业性、方便读者理解的技术效果。
附图说明
[0037]图1为专利技术一实施例的白话摘要生成方法流程图;
[0038]图2为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种白话摘要生成方法,其特征在于,所述方法包括:将目标训练集的文本数据进行分词,并利用分词后的文本数据构建字典;抽取所述字典中所有的专业词汇,形成专业词汇集,并计算所述字典中未被抽取的词汇的概率分布;调用预设函数表示所述字典内的白话词和所述专业词汇的权重信息,利用所述权重信息、所述概率分布和所述预设函数计算预设摘要生成模型的损失函数;根据用户指令调整所述预设摘要生成模型的损失函数中的权重参数,并生成所述权重参数对应白话化程度的摘要。2.根据权利要求1所述的白话摘要生成方法,其特征在于,所述抽取所述字典中所有的专业词汇的步骤,包括:使用NER模型抽取所述字典中所有的专业词汇。3.根据权利要求1所述的白话摘要生成方法,其特征在于,所述计算所述字典中未被抽取的词汇的概率分布的步骤之前,包括:利用第一预设规则从预设网站中爬取拓展词汇,并将所述拓展词汇添加到所述字典中。4.根据权利要求1所述的白话摘要生成方法,其特征在于,所述预设函数为β()函数,所述β()函数的定义为:其中,y为所述字典中任一词;Pmodel(y)为y在所述训练集中出现的概率;count()为y在所述训练集中出现的次数;|Y|为所述训练集中包含重复词在内的全部词的个数;P*(y)为通过预设规则调整字典内容后y出现的概率。5.根据权利要求1所述的白话摘要生成方法,其特征在于,所述计算所述字典中未被抽取的词汇的概率分布的步骤,包括:令P(白)=1

Pmodel(y专);再令P*(y白)=Pmodel(y白)/P(白);其中,P(白)为所述字典中白话词出现的总概率;Pmodel(y专)为所述字典中任一专业词汇(y专)出现的概率;P*(y白)为任一白话词(y白)在所述字典中未被抽取的词汇中出现的概率;Pmodel(y白)为通过预设规则调整字典内容后所述字典中任一白话词(y白)出现的概率。6.根据权利要求1所述的白话摘要生成方法,其特征在于,所述摘要生成模型为LSTM+attention模型;所述LSTM+attention模型包括第一损失函数和第二损失函数;所述使用预设函数表示所述字典内的白话词和所述专业词汇的权重...

【专利技术属性】
技术研发人员:舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1