基于Transformer问题关键词预测的多样性问题自动生成方法技术

技术编号:37467592 阅读:15 留言:0更新日期:2023-05-06 09:43
本发明专利技术提出一种基于Transformer问题关键词预测的多样性问题自动生成方法,属于自然语言处理领域。该方法包括:首先对数据集进行编码,然后构建一个基于Transformer的问题关键词预测器,通过增强基于GRU网络的编码器

【技术实现步骤摘要】
基于Transformer问题关键词预测的多样性问题自动生成方法


[0001]本专利技术涉及一种基于Transformer问题关键词预测的多样性问题自动生成方法,属于自然语言处理领域下的问题生成技术。

技术介绍

[0002]随着互联网、人工智能和大数据的发展,自动问题生成对电子商务信息文本的内容进行提问具有重要意义,它可以辅助电子商务网站的商家提前预判个别消费者对商品信息潜在的需求,规避客流量损失的风险。由于传统问题生成任务的目标是通过给定上下文和答案位置信息来生成问题,但是在电商领域的真实场景下,提供答案的位置信息会对问题的生成造成一定的影响。因此,最近有些研究学者开始研究如何通过上下文预测问题的关键词分布,以达到生成满足商家所需的问题。现有的方法仅仅使用卷积神经网络对问题关键词进行预测,很容易丢失上下文的结构信息,无法更深层的提取上下文的表征信息,导致问题预测不精准,最终影响问题生成的多样性和特殊性。
[0003]为了解决这一挑战,本专利技术通过构建一个基于TKPCNet的网络模型结构,训练一个端到端的神经网络。在模型中,第一阶段通过基于transformer问题关键词预测器,来预测问题关键词的语义信息,得到重要问题关键词的语义信息;第二阶段通过增强基于GRU的编码器

解码器模型,使用卷积神经网络提取问题关键词的语义信息,使用线性映射嵌入的方式,将提取的语义信息输入到编码器和解码器的输入端,来增强编码器

解码器模型;最终在解码阶段使用集束搜索算法产生多样性问题。r/>
技术实现思路

[0004]本专利技术的目的:本专利技术提供一种基于Transformer问题关键词预测的多样性问题自动生成方法,通过生成质量更好的多样性问题,解决现有电商发布商品文本信息缺失,导致消费者流失的问题。
[0005]本专利技术的技术方案是:一种基于Transformer问题关键词预测的多样性问题自动生成,所述方法的具体步骤如下:Step 1 提取数据集中的商品文本信息并转化为向量形式,作为TKPCNet模型的输入;Step 1.1 对数据集进行预处理;读取数据集中商品的上下文文本信息以及对应的问题,将商品上下文文本信息和问题进行分词,再进行词频统计;Step 1.2 对数据集中的商品信息id、上下文文本信息、问题进行三元组拼接,根据统计的词频将上下文文本信息和问题映射成向量形式。
[0006]对预处理后数据集中的商品id、上下文文本、问题进行三元组拼接,将商品的上下文文本和问题分词后的词汇,映射成可以识别的数组形式的列表集合,转换为TKPCNet模型需要的向量;再对上下文文本和问题的序列进行规范化操作,将上下文文本的序列长度大
于阈值部分进行截断,对于上下文文本的序列长度小于阈值的,采取字符补齐;问题序列长度大于阈值部分进行截断,问题序列长度小于阈值部分采取字符补齐;对上下文文本和问题进行词到向量的映射,从而构建上下文文本信息和问题映射的序列向量形式。
[0007]Step 2 构建TKPCNet模型(基于Transformer的关键词预测条件网络模型,Transformer of Keyword Predictor Keyword

Conditioned Network),首先构建一个Transformer问题关键词预测模型,然后构建一个编码器

解码器模型,通过卷积神经网络提取问题关键词的语义信息,使用线性映射嵌入的方式,最后输送到模型的编码器和解码器的输入端进行融合,完成TKPCNet模型的构建;Step 2.1 构建端到端的TKPCNet网络模型的编码器,在编码端使用多层双向循环神经网络对文本语义信息进行编码,更高效地对训练的数据进行编码和语义信息的学习,可以有效的学习到上下文的语义信息;Step 2.2 构建一个基于Transformer问题关键词预测模型,使用Transformer编码上下文文本的语义信息,预测问题关键词的重要性,接着使用卷积神经网络提取问题关键词的语义信息,最后通过线性映射的方式,将提取问题关键词的语义信息,替换成编码器和解码器第一个字符的起始输入;Step 2.3 构建端到端的TKPCNet模型的解码器,在解码端使用循环神经网络对目标问题进行解码,并采用注意力机制,防止文本数据过长,导致上下文语义信息丢失问题;Step 2.4 构建端到端的TKPCNet模型,通过将增强的编码器

解码器模型和基于Transformer问题关键词预测模型进行结合,共同构成一个端到端的TKPCNet模型。
[0008]Step 3 对TKPCNet模型的输出使用谱聚类和集束搜索的解码方式进行多样性问题生成。
[0009]Step 3.1 解码器输出采取谱聚类方式对问题生成中的关键词进行聚类;对提取出的问题关键词进行向量化转换,使用谱聚类对语义相似的问题关键词进行聚类,引导问题生成过程中,生成语义相关度较高的问题。
[0010]Step 3.2 解码器的每一步输出使用集束搜索的方式生成多个词汇,从而生成多样性问题,即在问题生成的每一个时间步长,选取当前条件中概率最大的k个词,作为下一个时间步的候选输出序列的第一个词。
[0011]本专利技术的有益效果是:1、本专利技术在理论层面,研究了关于特定领域问题生成的多样性和特殊性,通过实验论证基于Transformer问题关键词预测器具有更好的性能,可以更好的解决商品描述文本信息领域的多样性问题,解决用户更多的疑问。此外,将预测的问题关键词通过卷积神经网络提取语义信息,使用线性映射的方式输送到编码器和解码器输入端,使模型在最初阶段就可以学习到更好的参数;2、在实践层面,本专利技术的模型对于解决实际问题具有很大的帮助,可以直接用于各级各类商品信息文本缺失信息的问题生成,这可以帮助商家减少因产品信息不足导致的客户流失问题;3、本专利技术能自动识别商品文本的缺失文本语义信息,通过向商家以多种问题的提问方式,促进商家对商品的信息进行改进。且实验结果表明,所述基于Transformer问题关键词预测的多样性问题自动生成方法,在自动评估方面优于传统的方法。
附图说明
[0012]图1是本专利技术的基于Transformer问题关键词预测的多样性问题自动生成总体流程框图;图2 是本专利技术的TKPCNet模型的编码器图;图3是本专利技术的Transformer问题关键词预测模型;图4 是本专利技术的TKPCNet模型的的解码器图;图5是本专利技术的TKPCNet模型的框架图。
具体实施方式
[0013]下面结合附图和具体实施方式,对本专利技术作进一步说明。
[0014]一种基于Transformer问题关键词预测的多样性问题自动生成方法,总体的框架图如图1所示,具体步骤为:Step1 提取数据集中的商品文本信息并转化为向量形式;主要将文本信息和问题信息,当作TKPCNet模型的输入向量。
[0015]本实施例中以Amason网站上的商品为例说明。
[0016]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于Transformer问题关键词预测的多样性问题自动生成方法,其特征在于,具体步骤如下:Step 1 提取数据集中的商品文本信息并转化为向量形式,作为TKPCNet模型的输入;Step 2 构建TKPCNet模型,首先构建一个Transformer问题关键词预测模型,然后构建一个编码器

解码器模型,通过卷积神经网络提取问题关键词的语义信息,使用线性变换的方式将语义信息映射成编码器

解码器起始输入的隐藏层信息,最后输送到模型的编码器和解码器的输入端进行融合,完成TKPCNet模型的构建;Step 3 对TKPCNet模型的输出使用谱聚类和集束搜索的解码方式进行多样性问题生成。2.根据权利要求1所述的基于Transformer问题关键词预测的多样性问题自动生成方法,其特征在于:所述Step1的具体步骤如下:Step 1.1:对数据集进行预处理;读取数据集中商品的上下文文本信息以及对应的问题,将商品上下文文本信息和问题进行分词,再进行词频统计;Step 1.2:对数据集中的商品信息id、上下文文本信息、问题进行三元组拼接,根据统计的词频将上下文文本信息和问题映射成向量形式。3.根据权利要求1所述的基于Transformer问题关键词预测的多样性问题自动生成方法,其特征在于:所述Step2的具体步骤如下:Step 2.1 构建端到端的TKPCNet网络模型的编码器,在编码端使用多层双向循环神经网络对文本语义信息进行编码;Step 2.2 构建一个基于Transformer问题关键词预测模型,使用Transformer编码上下文文本的语义信息,预测问题关键词的重要性,接着使用卷积神经网络提取问题关键词的语义信息,最后通过线性变换的方式,将提取问题关键词的语义信息,替换成编码器和解码器第一个字符的起始输入;Step 2.3:构建端到端的TKPCNet模型的解码器,在解码端使用循环神经网络对目标问题进行解码;Step 2.4:构建端到端的TKPCNet模型,通过将增强的编码器

解码器模型和基于Transformer问题关键词预测模型进行结合,共同构成一个端到端的TKPCNet模型。4.根据权利要求1所述的基于Transformer问题关键词预测的多样性问题自动生成方法,其特征在于:所述Step3的具体步骤如下:Step 3.1 解码器输出先采取谱聚类方式对问题的关键词进行聚类;Step 3.2 解码器的每一步输出使用...

【专利技术属性】
技术研发人员:周菊香周明涛李子杰甘健侯陈恳徐坚
申请(专利权)人:云南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1