【技术实现步骤摘要】
一种基于细粒度主题建模的数据到文本生成方法
本专利技术涉及计算机应用
,具体涉及一种基于细粒度主题建模的数据到文本生成方法。
技术介绍
随着信息技术的发展,各个领域积累的行业数据正在快速增长,例如,金融领域积累的财务报表、体育领域积累的球赛实况数据等。为了解决海量数据带来的信息过载问题,数据到文本生成任务受到了越来越多研究者的关注。数据到文本生成任务旨在用自然语言描述结构化数据中包含的主要信息,进而帮助人们更好地把握海量数据背后包含的具体含义。早期的研究工作主要将该任务拆分为内容规划、句子规划以及表层实现三个独立的子任务,并构建一系列人工规则来依次执行这些子任务,以得到最终的文本。因此,这类方法虽然结构简单且具有较好的可解释性,但存在错误传递、人工模板难以获取等问题,可扩展性较差。近年来,随着深度学习技术的发展,基于编码器-解码器结构的端到端的学习方式逐渐成为了数据到文本生成任务的主流方法。Lebret等利用条件语言模型实现人物传记的生成。Mei等使用基于复制机制的序列到序列模型提升内容选择的效果。Li ...
【技术保护点】
1.一种基于细粒度主题建模的数据到文本生成方法,其特征在于,包括以下步骤:/n步骤1:在编码层基于双向长短期记忆网络学习结构化数据表中每个数据记录的语义表示;/n步骤2:基于非负矩阵分解方法学习结构化数据表中每个数据记录对应的主题分布以及各主题对应的词分布,得到每个数据记录对应的主题词表;/n步骤3:在解码层基于步骤1编码的结构化数据表中每个数据记录的语义表示,利用长短期记忆网络、注意力机制、细粒度主题表示,并结合步骤2得到的主题词表,进行文本生成;/n步骤4:进行模型训练,构建损失函数对步骤1编码的结构化数据表中每个数据记录的语义表示和步骤3生成的文本进行优化,得到最优的文本生成结果。/n
【技术特征摘要】
1.一种基于细粒度主题建模的数据到文本生成方法,其特征在于,包括以下步骤:
步骤1:在编码层基于双向长短期记忆网络学习结构化数据表中每个数据记录的语义表示;
步骤2:基于非负矩阵分解方法学习结构化数据表中每个数据记录对应的主题分布以及各主题对应的词分布,得到每个数据记录对应的主题词表;
步骤3:在解码层基于步骤1编码的结构化数据表中每个数据记录的语义表示,利用长短期记忆网络、注意力机制、细粒度主题表示,并结合步骤2得到的主题词表,进行文本生成;
步骤4:进行模型训练,构建损失函数对步骤1编码的结构化数据表中每个数据记录的语义表示和步骤3生成的文本进行优化,得到最优的文本生成结果。
2.根据权利要求1所述的基于细粒度主题建模的数据到文本生成方法,其特征在于:在步骤1中,首先将结构化数据表中每个数据记录包含的三个属性分别映射到低维、稠密的特征向量空间,得到三个特征向量,并将三个特征向量进行拼接,作为每个数据记录的初始特征表示;然后使用双向长短期记忆网络作为编码层,输入每个数据记录的初始特征表示,输出每个数据记录的语义表示。
3.根据权利要求1所述的基于细粒度主题建模的数据到...
【专利技术属性】
技术研发人员:王旭强,
申请(专利权)人:国网天津市电力公司,国家电网有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。