一种基于mt5模型融合ner实体识别的评论生成方法技术

技术编号:37704385 阅读:10 留言:0更新日期:2023-06-01 23:52
本发明专利技术提供了一种基于mt5模型融合ner实体识别的评论生成方法,属于文本生成技术领域。通过对mt5模型结构进行修改,增加ner实体识别部分,利用输入的实体信息提高评论生成的质量,并且利用sep_token作为分隔符将每个片段生成的评论连接起来,生成完整的评论。本方法针对文章主题进行多条评论的生成,生成的评论具有更高的相关性和连贯性。本方法实现了ner实体识别和评论生成的整合,减少了模型的训练和生成时间,提高了模型的效率。提高了模型的效率。提高了模型的效率。

【技术实现步骤摘要】
一种基于mt5模型融合ner实体识别的评论生成方法


[0001]本专利技术涉及一种基于mt5模型融合ner实体识别的评论生成方法,属于文本生成


技术介绍

[0002]新闻评论让用户表达自己对文章的观点和态度,通过鼓励用户浏览评论、相互交流,从而扩展新闻的内容和提高新闻客户端的用户参与度。现阶段主要采用传统seq2seq模型进行评论生成,但是评论生成质量一般。当前急需一种高质量的评论生成方法。

技术实现思路

[0003]本专利技术目的是提供了一种基于mt5模型融合ner实体识别的评论生成方法,实现对输入文本的分隔处理,使每条评论的输入信息更加明确清晰。
[0004]本专利技术为实现上述目的,通过以下技术方案实现:步骤1:数据预处理,将输入文本的新闻数据进行位置信息标注,得到序列x,同时将多条评论label数据进行实体信息提取标注得到,然后每条评论数据通过seq_token分隔符拼接,得到训练label数据 Y;步骤2:把序列转化为词向量和位置向量,其中,i表示每个字符的绝对位置,、的维度为模型的隐向量维度;将词向量和位置向量相加,得到输入序列;并将输入序列划分为测试集和训练集;步骤3:构建评论生成模型,所述评论生成模型包括编码和解码两部分,所述编码部分和解码部分均由9个Block组成,其中解码部分最后多了一层Linear;步骤4:将训练集输入序列输入评论生成模型进行训练,编码后续全连接层的输出和真实数据计算交叉熵损失得到实体识别部分的交叉熵损失;解码后续的输出通过和真实数据Y计算交熵损失得到生成任务的交叉熵损失,然后两个损失加权求和作为最后的损失函数,通过adam优化器优化,得到评论生成模型;步骤5:将测试集输入训练好的评论生成模型,得到最终结果。
[0005]优选的,所述编码部分整合ner,对输入序列处理过程如下:训练集输入序列输入编码部分,得到输出隐状态h,再通过一个全连接层将隐状态h映射为NER的概率分布,具体公式如下:;式中,表示每个字符的实体概率分布、表示计算每个实体类别的概率、表示感知机网络、表示第个包含实体信息的隐状态向量;将输出隐状态h和ner输出y通过关联模块合并,得到包含ner信息的隐状态向量
,具体公式如下:;其中,表示隐状态向量对ner概率分布的得分,表示编码部分的输出隐状态。
[0006]优选的,所述隐状态向量对ner概率分布的得分具体公式如下:;其中,,,表示通过全连接层对进行信息提取后的结果、表示通过全连接层对进行信息提取后的结果,表示连接的全连接层的权重,表示连接的全连接层权重。
[0007]优选的,所述损失函数为:;其中,为比例系数,表示生成任务的交叉熵损失,表示实体识别部分的交叉熵损失。
[0008]优选的,所述为0.3。
[0009]优选的,所述编码部分的每个块由两层组成,第一层的结构依次为自注意力层、层归一化、随机失活,第二层的结构依次传统线性整流函数的全连接层、层归一化、随机失活。
[0010]优选的,所述解码部分每个块由三层组成,第一层依次为自注意力层、层归一化和随机失活,第二层依次为线性整流函数的全连接层、层归一化和随机失活,第三层依次为线性整流函数的全连接层、层归一化和随机失活。
[0011]本专利技术的优点在于:本专利技术利用输入的实体信息提高生成评论的质量并通过特殊的排序方案,对评论进行排序,并通过的分隔符,将每个片段生成的评论连接起来,提高评论的相关性和连贯性。
附图说明
[0012]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。
[0013]图1为本专利技术结构示意图。
具体实施方式
[0014]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0015]1、一种基于mt5模型融合ner实体识别的评论生成方法,其特征在于,包括以下步骤:步骤1:数据预处理,将输入文本的新闻数据进行位置信息标注,得到序列x,同时将多条评论label数据进行实体信息提取标注得到,然后每条评论数据通过seq_token
分隔符拼接,得到训练label数据 Y;步骤2:把序列转化为词向量和位置向量,其中,i表示每个字符的绝对位置,、的维度为模型的隐向量维度;将词向量和位置向量相加,得到输入序列;并将输入序列划分为测试集和训练集;步骤3:构建评论生成模型,所述评论生成模型包括编码和解码两部分,所述编码部分和解码部分均由9个Block组成,其中解码部分最后多了一层Linear;编码部分的每个块由两层组成,第一层的结构依次为自注意力层、层归一化、随机失活,第二层的结构依次传统线性整流函数的全连接层、层归一化、随机失活。
[0016]所述解码部分每个块由三层组成,第一层依次为自注意力层、层归一化和随机失活,第二层依次为线性整流函数的全连接层、层归一化和随机失活,第三层依次为线性整流函数的全连接层、层归一化和随机失活。
[0017]所述编码部分整合ner,对输入序列处理过程如下:训练集输入序列输入编码部分,得到输出隐状态h,再通过一个全连接层将隐状态h映射为NER的概率分布,具体公式如下:;式中,表示每个字符的实体概率分布、表示计算每个实体类别的概率、表示感知机网络、表示第个包含实体信息的隐状态向量;将输出隐状态h和ner输出y通过关联模块合并,得到包含ner信息的隐状态向量,具体公式如下:;其中,表示隐状态向量对ner概率分布的得分,表示编码部分的输出隐状态。
[0018]所述隐状态向量对ner概率分布的得分具体公式如下:;其中,,,表示通过全连接层对进行信息提取后的结果、表示通过全连接层对进行信息提取后的结果,表示连接的全连接层的权重,表示连接的全连接层权重。
[0019]步骤4:将训练集输入序列输入评论生成模型进行训练,编码后续全连接层的输出和真实数据计算交叉熵损失得到实体识别部分的交叉熵损失;解码后续的输出通过和真实数据Y计算交熵损失得到生成任务的交叉熵损失,然后两个损失加权求和作为最后的损失函数,通过adam优化器优化,得到评论生成模型;所述损失函数为:;其中,为比例系数,所述为0.3,表示生成任务的交叉熵损失,表示实体识别部分的交叉熵损失。
[0020]步骤5:将测试集输入训练好的评论生成模型,得到最终结果。
[0021]实施例2利用本专利技术,从互联网网站获取的新闻,如下芦笋是一种营养价值比较高的蔬菜,它里面含有人体所需的氨基酸,还有很多微量元素。现在的芦笋一年四季都能吃上,但春天的芦笋才是最好吃的,这个季节的芦笋水分很足,又鲜又嫩,还带有微微的甜味。
[0022]洛阳牡丹是中国传统名花之一,其珍品“银丝贯顶”更是它们中的佼佼者。每年五月,当这些花盛开时,成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于mt5模型融合ner实体识别的评论生成方法,其特征在于,包括以下步骤:步骤1:数据预处理,将输入文本的新闻数据进行位置信息标注,得到序列x,同时将多条评论label数据进行实体信息提取标注得到,然后每条评论数据通过seq_token分隔符拼接,得到训练label数据 Y;步骤2:把序列转化为词向量和位置向量,其中,i表示每个字符的绝对位置,、的维度为模型的隐向量维度;将词向量和位置向量相加,得到输入序列;并将输入序列划分为测试集和训练集;步骤3:构建评论生成模型,所述评论生成模型包括编码和解码两部分,所述编码部分和解码部分均由9个Block组成,其中解码部分最后多了一层Linear;步骤4:将训练集输入序列输入评论生成模型进行训练,编码后续全连接层的输出和真实数据计算交叉熵损失得到实体识别部分的交叉熵损失;解码后续的输出通过和真实数据Y计算交熵损失得到生成任务的交叉熵损失,然后两个损失加权求和作为最后的损失函数,通过adam优化器优化,得到评论生成模型;步骤5:将测试集输入训练好的评论生成模型,得到最终结果。2.根据权利要求1所述的基于mt5模型融合ner实体识别的评论生成方法,其特征在于,所述编码部分整合ner,对输入序列处理过程如下:训练集输入序列输入编码部分,得到输出隐状态h,再通过一个全连接层将隐状态h映射为NER的概率分布,具体公式如下:;式中,表示每个字符的实体概率分布、表示计算每个实体类别的概率、表示感知机网络、表示第个...

【专利技术属性】
技术研发人员:宋耀魏传强司君波李喆刘鹏
申请(专利权)人:山东齐鲁壹点传媒有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1