【技术实现步骤摘要】
基于表格的文本生成方法及相关装置
本申请涉及人工智能
,尤其涉及一种基于表格的文本生成方法及相关装置。
技术介绍
目前,根据表格数据生成文本一直是人工智能中重要的研究方向之一。并且,近年来有很多借助神经网络模型在这个研究方向上取得很好成果的研究。然而,相关技术中的研究主要存在两方面的问题:(一)在进行表格中数值到文本的生成时,将表格中的数值视为字符串来生成表格的文本表达,但生成的文本表达结果存在不准确的问题;例如在球赛当中将得分高的队伍描述成失败方。(二)在进行表格中数值到文本的生成时,仅关注到表格中的数值,从而得到数值表示,但不能根据得到的数值表示得到连贯的可理解的文本表达,导致文本表达不准确。
技术实现思路
本申请实施例提供基于表格的文本生成方法及相关装置,用以解决相关技术中存在的基于表格得到的文本表达的准确性还需要提高的问题。第一方面,本申请实施例提供的一种基于表格的文本生成方法,所述方法包括:获取所述表格中的三元组,所述三元组包括:行名、列名、所述行名和所述列名对应的数值信息;对所述三元组进行特征提取,得到所述三元组的特征表达,所述特征表达中至少包含所述三元组的上下文信息以及所述三元组的数值信息与其他三元组的数值信息的大小关系;由所述表格的多个三元组的特征表达构成特征表达集合,并对所述特征表达集合进行筛选,得到所述表格中的目标信息序列;根据所述目标信息序列构建所述表格的文本表达。在一个实施例中,所述目标函数为:其 ...
【技术保护点】
1.一种基于表格的文本生成方法,其特征在于,所述方法包括:/n获取所述表格中的三元组,所述三元组包括:行名、列名、所述行名和所述列名对应的数值信息;/n对所述三元组进行特征提取,得到所述三元组的特征表达,所述特征表达中至少包含所述三元组的上下文信息以及所述三元组的数值信息与其他三元组的数值信息的大小关系;/n由所述表格的多个三元组的特征表达构成特征表达集合,并对所述特征表达集合进行筛选,得到所述表格中的目标信息序列;/n根据所述目标信息序列构建所述表格的文本表达。/n
【技术特征摘要】
1.一种基于表格的文本生成方法,其特征在于,所述方法包括:
获取所述表格中的三元组,所述三元组包括:行名、列名、所述行名和所述列名对应的数值信息;
对所述三元组进行特征提取,得到所述三元组的特征表达,所述特征表达中至少包含所述三元组的上下文信息以及所述三元组的数值信息与其他三元组的数值信息的大小关系;
由所述表格的多个三元组的特征表达构成特征表达集合,并对所述特征表达集合进行筛选,得到所述表格中的目标信息序列;
根据所述目标信息序列构建所述表格的文本表达。
2.根据权利要求1所述的方法,其特征在于,所述对所述三元组进行特征提取,得到所述三元组的特征表达,包括:
对所述三元组中的所述行名、所述列名以及所述数值信息分别进行词嵌入得到所述三元组的文本向量;
构建所述三元组的同类三元组的文本向量集;其中,行名或列名相同的三元组为同类三元组;
通过预先训练的编码器模型对所述文本向量集进行特征提取,得到所述三元组的数值特征;
针对任一三元组,由所述三元组的行名和列名的文本向量以及所述三元组的数值特征构造所述三元组的特征表达;
其中,所述编码器模型是以预先构建的文本分类模型作为约束条件进行训练得到的,所述文本分类模型用于对所述编码器模型提取的特征表达进行分类,以使任意两个三元组中数值信息高的三元组划分到高数值类别、数值低的三元组划分到低数值类别。
3.根据权利要求2所述的方法,其特征在于,训练所述编码器模型,包括:
构建训练样本,所述训练样本中包括同类三元组样本的文本向量;
通过所述编码器模型对所述训练样本进行特征提取,得到所述训练样本中各三元组样本的特征表达;
通过所述文本分类模型对各三元组样本的特征表达进行评分,得到各三元组样本的评分;
将各三元组样本的评分作为目标函数的输入参数,得到所述目标函数的损失;
根据所述目标函数的损失调整所述编码器模型的参数以及所述文本分类模型的参数,以使任意两个三元组样本中数值高的三元组样本的评分高于数值低的三元组样本的评分。
4.根据权利要求1所述的方法,其特征在于,所述对所述特征表达集合进行筛选,包括:
通过多层感知机对所述表格的所述特征表达集合进行特征提取,得到深度特征;
基于已训练的筛选模型对所述深度特征进行筛选,得到所述目标信息序列;
其中,所述筛选模型以及所述多层感知机是根据以下方法训练得到的:
将所述筛选模型筛选出的目标信息序列与预先构建的参考信息序列进行比对;
根据所述目标信息序列与所述参考信息序列的差异对所述筛选模型以及所述多层感知机的参数进行调整。
5.根据权利要求4所述的方法,其特征在于,所述目标信息序列与所述参考信息序列的差异包括:词级别的差异以及信息序列级别的差异;其中,
所述词级别的差异用于表示所述目标信息序列中的各词与所述目标信息序列的差...
【专利技术属性】
技术研发人员:闭玮,龚恒,刘晓江,冯骁骋,秦兵,刘挺,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。