基于表格的文本生成方法及相关装置制造方法及图纸

技术编号:25397938 阅读:29 留言:0更新日期:2020-08-25 23:02
本申请涉及人工智能技术领域,尤其涉及一种基于表格的文本生成方法及相关装置。该方法包括:获取所述表格中的三元组,所述三元组包括:行名、列名、所述行名和所述列名对应的数值信息;对所述三元组进行特征提取,得到所述三元组的特征表达,所述特征表达中至少包含所述三元组的上下文信息以及所述三元组的数值信息与其他三元组的数值信息的大小关系;由所述表格的多个三元组的特征表达构成特征表达集合,并对所述特征表达集合进行筛选,得到所述表格中的目标信息序列;根据所述目标信息序列构建所述表格的文本表达。通过本申请提供的方法,提高了基于表格生成的文本表达的准确性以及增强了对于表格中各数值信息间的理解能力。

【技术实现步骤摘要】
基于表格的文本生成方法及相关装置
本申请涉及人工智能
,尤其涉及一种基于表格的文本生成方法及相关装置。
技术介绍
目前,根据表格数据生成文本一直是人工智能中重要的研究方向之一。并且,近年来有很多借助神经网络模型在这个研究方向上取得很好成果的研究。然而,相关技术中的研究主要存在两方面的问题:(一)在进行表格中数值到文本的生成时,将表格中的数值视为字符串来生成表格的文本表达,但生成的文本表达结果存在不准确的问题;例如在球赛当中将得分高的队伍描述成失败方。(二)在进行表格中数值到文本的生成时,仅关注到表格中的数值,从而得到数值表示,但不能根据得到的数值表示得到连贯的可理解的文本表达,导致文本表达不准确。
技术实现思路
本申请实施例提供基于表格的文本生成方法及相关装置,用以解决相关技术中存在的基于表格得到的文本表达的准确性还需要提高的问题。第一方面,本申请实施例提供的一种基于表格的文本生成方法,所述方法包括:获取所述表格中的三元组,所述三元组包括:行名、列名、所述行名和所述列名对应的数值信息;对所述三元组进行特征提取,得到所述三元组的特征表达,所述特征表达中至少包含所述三元组的上下文信息以及所述三元组的数值信息与其他三元组的数值信息的大小关系;由所述表格的多个三元组的特征表达构成特征表达集合,并对所述特征表达集合进行筛选,得到所述表格中的目标信息序列;根据所述目标信息序列构建所述表格的文本表达。在一个实施例中,所述目标函数为:其中,lpre表示所述目标函数的损失;n表示各训练样本中包含的三元组样本的数量;i表示第i个三元组样本;j表示第j个三元组样本;ζ为设定值;表示第i个三元组样本的评分;表示第j个三元组样本的评分;ri.v表示第i个三元组的文本向量;rj.v表示第j个三元组的文本向量;N为常数值。第二方面,本申请实施例提供一种基于表格的文本生成装置,所述装置包括:获取模块,用于获取所述表格中的三元组,所述三元组包括:行名、列名、所述行名和所述列名对应的数值信息;特征提取模块,用于对所述三元组进行特征提取,得到所述三元组的特征表达,所述特征表达中至少包含所述三元组的上下文信息以及所述三元组的数值信息与其他三元组的数值信息的大小关系;筛选模块,用于由所述表格的多个三元组的特征表达构成特征表达集合,并对所述特征表达集合进行筛选,得到所述表格中的目标信息序列;构建模块,用于根据所述目标信息序列构建所述表格的文本表达。在一个实施例中,特征提取模块用于对所述三元组进行特征提取,得到所述三元组的特征表达时,具体用于:对所述三元组中的所述行名、所述列名以及所述数值信息分别进行词嵌入得到所述三元组的文本向量;构建所述三元组的同类三元组的文本向量集;其中,行名或列名相同的三元组为同类三元组;通过预先训练的编码器模型对所述文本向量集进行特征提取,得到所述三元组的数值特征;针对任一三元组,由所述三元组的行名和列名的文本向量以及所述三元组的数值特征构造所述三元组的特征表达;其中,所述编码器模型是以预先构建的文本分类模型作为约束条件进行训练得到的,所述文本分类模型用于对所述编码器模型提取的特征表达进行分类,以使任意两个三元组中数值信息高的三元组划分到高数值类别、数值低的三元组划分到低数值类别。在一个实施例中,训练所述编码器模型,包括:构建训练样本,所述训练样本中包括同类三元组样本的文本向量;通过所述编码器模型对所述训练样本进行特征提取,得到所述训练样本中各三元组样本的特征表达;通过所述文本分类模型对各三元组样本的特征表达进行评分,得到各三元组样本的评分;将各三元组样本的评分作为目标函数的输入参数,得到所述目标函数的损失;根据所述目标函数的损失调整所述编码器模型的参数以及所述文本分类模型的参数,以使任意两个三元组样本中数值高的三元组样本的评分高于数值低的三元组样本的评分。在一个实施例中,所述目标函数为:其中,lpre表示目标函数的损失;n表示各训练样本中包含的三元组样本的数量;i表示第i个三元组样本;j表示第j个三元组样本;ζ为设定值;表示第i个三元组样本的评分;表示第j个三元组样本的评分;ri.v表示第i个三元组的文本向量;rj.v表示第j个三元组的文本向量;N为常数值。在一个实施例中,所述筛选模块,用于对所述特征表达集合进行筛选时,具体用于:通过多层感知机对所述表格的所述特征表达集合进行特征提取,得到深度特征;基于已训练的筛选模型对所述深度特征进行筛选,得到所述目标信息序列;其中,所述筛选模型以及所述多层感知机是根据以下方法训练得到的:将所述筛选模型筛选出的目标信息序列与预先构建的参考信息序列进行比对;根据所述目标信息序列与所述参考信息序列的差异对所述筛选模型以及所述多层感知机的参数进行调整。在一个实施例中,所述目标信息序列与所述参考信息序列的差异包括:词级别的差异以及信息序列级别的差异;其中,所述词级别的差异用于表示所述目标信息序列中的各词与所述目标信息序列的差异;所述序列级别的差异用于表示所述目标信息序列与所述参考信息序列的整体相似度。在一个实施例中,所述词级别的差异包括以下中的至少一种:数据实体重要性、三元组的数据重要性;其中,数据实体为行名或列名;所述筛选模块,具体用于:针对所述目标信息序列中每个数据实体,根据以下方法确定数据实体的所述数据实体重要性:若数据实体包含在所述参考信息序列中,则所述数据实体的数据实体重要性为第一预设值;若数据实体不包含在所述参考信息序列中,则所述数据实体的数据实体重要性为第二预设值;其中,所述第一预设值大于所述第二预设值;针对所述目标信息序列中的任一三元组,根据以下方法确定所述三元组的数据重要性:若所述三元组包含在所述参考信息序列中,则所述三元组的数据重要性为第三预设值;若三元组不包含在所述参考信息序列中,则所述三元组的数据重要性为第四预设值;其中,所述第三预设值大于所述第四预设值。在一个实施例中,所述序列级别的差异包括以下中的至少一种:数据实体召回率、三元组的数据召回率、数据顺序;其中,数据实体为行名或列名;所述筛选模块,具体用于:根据以下方法确定所述数据实体召回率:确定所述参考信息序列与所述目标信息序列中相同的数据实体数目,将所述相同的数据实体数目与所述参考信息序列中的数据实体数目的比值作为所述数据实体召回率;根据以下方法确定所述三元组的数据召回率:确定所述参考信息序列与所述目标信息序列中相同的三元组数目,将所述相同的三元组数目与所述参考信息序列中的三元组数目的比值作为所述数据召回率;根据以下方法确定所述目标信息序列的所述数据顺序:确定所述目标信息序列与所述参考目标信息序列之间的文本相似度作为所述数据顺序本文档来自技高网...

【技术保护点】
1.一种基于表格的文本生成方法,其特征在于,所述方法包括:/n获取所述表格中的三元组,所述三元组包括:行名、列名、所述行名和所述列名对应的数值信息;/n对所述三元组进行特征提取,得到所述三元组的特征表达,所述特征表达中至少包含所述三元组的上下文信息以及所述三元组的数值信息与其他三元组的数值信息的大小关系;/n由所述表格的多个三元组的特征表达构成特征表达集合,并对所述特征表达集合进行筛选,得到所述表格中的目标信息序列;/n根据所述目标信息序列构建所述表格的文本表达。/n

【技术特征摘要】
1.一种基于表格的文本生成方法,其特征在于,所述方法包括:
获取所述表格中的三元组,所述三元组包括:行名、列名、所述行名和所述列名对应的数值信息;
对所述三元组进行特征提取,得到所述三元组的特征表达,所述特征表达中至少包含所述三元组的上下文信息以及所述三元组的数值信息与其他三元组的数值信息的大小关系;
由所述表格的多个三元组的特征表达构成特征表达集合,并对所述特征表达集合进行筛选,得到所述表格中的目标信息序列;
根据所述目标信息序列构建所述表格的文本表达。


2.根据权利要求1所述的方法,其特征在于,所述对所述三元组进行特征提取,得到所述三元组的特征表达,包括:
对所述三元组中的所述行名、所述列名以及所述数值信息分别进行词嵌入得到所述三元组的文本向量;
构建所述三元组的同类三元组的文本向量集;其中,行名或列名相同的三元组为同类三元组;
通过预先训练的编码器模型对所述文本向量集进行特征提取,得到所述三元组的数值特征;
针对任一三元组,由所述三元组的行名和列名的文本向量以及所述三元组的数值特征构造所述三元组的特征表达;
其中,所述编码器模型是以预先构建的文本分类模型作为约束条件进行训练得到的,所述文本分类模型用于对所述编码器模型提取的特征表达进行分类,以使任意两个三元组中数值信息高的三元组划分到高数值类别、数值低的三元组划分到低数值类别。


3.根据权利要求2所述的方法,其特征在于,训练所述编码器模型,包括:
构建训练样本,所述训练样本中包括同类三元组样本的文本向量;
通过所述编码器模型对所述训练样本进行特征提取,得到所述训练样本中各三元组样本的特征表达;
通过所述文本分类模型对各三元组样本的特征表达进行评分,得到各三元组样本的评分;
将各三元组样本的评分作为目标函数的输入参数,得到所述目标函数的损失;
根据所述目标函数的损失调整所述编码器模型的参数以及所述文本分类模型的参数,以使任意两个三元组样本中数值高的三元组样本的评分高于数值低的三元组样本的评分。


4.根据权利要求1所述的方法,其特征在于,所述对所述特征表达集合进行筛选,包括:
通过多层感知机对所述表格的所述特征表达集合进行特征提取,得到深度特征;
基于已训练的筛选模型对所述深度特征进行筛选,得到所述目标信息序列;
其中,所述筛选模型以及所述多层感知机是根据以下方法训练得到的:
将所述筛选模型筛选出的目标信息序列与预先构建的参考信息序列进行比对;
根据所述目标信息序列与所述参考信息序列的差异对所述筛选模型以及所述多层感知机的参数进行调整。


5.根据权利要求4所述的方法,其特征在于,所述目标信息序列与所述参考信息序列的差异包括:词级别的差异以及信息序列级别的差异;其中,
所述词级别的差异用于表示所述目标信息序列中的各词与所述目标信息序列的差...

【专利技术属性】
技术研发人员:闭玮龚恒刘晓江冯骁骋秦兵刘挺
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1