【技术实现步骤摘要】
基于表格型数据生成文本的方法、装置、设备及存储介质
本专利技术涉及人机交互
,具体而言,涉及一种基于表格型数据生成文本的方法、装置、设备及存储介质。
技术介绍
文本生成技术是利用人工智能算法让计算机自主完成写作任务,在写作过程中不需要人工干预,自动撰写出高质量的自然语言文本。文本生成技术不仅可用于智能问答与对话、机器翻译等系统,还可实现更加智能与自然的人机交互;还可用于视觉图像领域进行图像描述的生成,加快视觉与自然语言处理领域的结合。其中,数据到文本生成技术是当前研究的热点与难点,在多个场景中体现出重要的价值。数据到文本生成技术可处理诸如体育赛事得分记录数据的新闻文本自动生成,也可用于解决大量日益更新的货物产品信息的文字描述生成工作,还可用于各领域业绩报告生成,解决重复且繁琐的销售业绩数据的分析与处理,等等。目前针对从表格型(结构化)数据(字符串、数字等)推导生成描述性文本的研究中,在具体数值、时间等信息的推理上仍存在无法有效地给出一个时间轴上数据间的分布规律的缺陷,且描述性文本生成过程中大多将语义和句 ...
【技术保护点】
1.一种基于表格型数据生成文本的方法,其特征在于,包括:/n构建数据特征表示空间,其中,所述数据特征表示空间包括记录编码层、内容选择层以及内容规划层,以实现层次化的特征表示;/n通过训练特征表示空间到输出向量的映射关系,构建深度生成网络;/n以所述数据特征表示空间为编码器,所述深度生成网络作为解码器,构建表格型数据到文本的生成模型;/n基于所述生成模型将输入的待转换的表格型数据转换为文本输出。/n
【技术特征摘要】
1.一种基于表格型数据生成文本的方法,其特征在于,包括:
构建数据特征表示空间,其中,所述数据特征表示空间包括记录编码层、内容选择层以及内容规划层,以实现层次化的特征表示;
通过训练特征表示空间到输出向量的映射关系,构建深度生成网络;
以所述数据特征表示空间为编码器,所述深度生成网络作为解码器,构建表格型数据到文本的生成模型;
基于所述生成模型将输入的待转换的表格型数据转换为文本输出。
2.根据权利要求1所述的一种基于表格型数据生成文本的方法,其特征在于,所述表格型数据包括多条记录,每条记录包括至少一个多元组;
则所述记录编码层用于:
对输入的表格型数据中的每条记录包含的多元组进行编码后,利用一层MLP转为一个数据记录向量rj;
所述内容选择层用于,计算每个数据记录向量rj的注意力分数ξj,k,并转化为注意力向量通过Sigmoid激活函数选择出生成文本中所需的数据记录向量
所述内容规划层用于,采用Transformer模型,对生成文本中出现的数据记录与内容选择层输出的数据记录进行训练,从而获取到数据记录的生成顺序,实现生成内容的规划,并求得内容规划序列。
3.根据权利要求2所述的一种基于表格型数据生成文本的方法,其特征在于,所述内容规划层具体为:
抽取样本中实际输出的数据记录,并获取对象的数据记录向量;
根据所述从样本实际输出中获取的数据记录向量,与获取的数据向量赋予一定的生成指引,即内容规划序列。
4.根据权利要求1所述的一种基于表格型数据生成文本的方法,其特征在于,所述深度生成网络用于:
获取原始词编码信息并结合内容规划信息,将内容规划序列进行规划编码,进而与数据记录向量拼接为新的嵌入表示
推导句子层生成的潜在变量,采用GRU网络构建句子解码器;其中,对于每个句子st的生成,句子解码器提供了GRU网络生成的句子隐藏状态与VAE算法获取的潜在变量来控制句子的表达;
分析每个句子st传入...
【专利技术属性】
技术研发人员:何霆,许晓泓,王华珍,刘长昊,熊英杰,
申请(专利权)人:华侨大学,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。