一种引入推理机制的文本生成方法技术

技术编号:24578120 阅读:99 留言:0更新日期:2020-06-21 00:40
一种引入推理机制的文本生成方法,本发明专利技术涉及文本生成方法。本发明专利技术的目的是为了解决现有数据生成文本中数据信息推理表格信息中隐含信息准确率低的问题。过程为:一、用#号替换表格数据信息对应的新闻报告中能推理的数字;二、得到同一实体的总体表示;三、采用解码器LSTM对得到的同一实体的总体表示进行解码,生成每个三元组的权重;解码器根据三元组权重生成具体的文字;若生成的文字是#号,触发推理按钮,生成计算序列,将计算序列得到的结果返回触发推理按钮位置,替换#号,解码器继续依次生成文字,直到文字生成了EOS结束标识,文字生成结束;得到神经网络网格推理模型。本发明专利技术用于NLP领域数据到文本领域。

A text generation method with reasoning mechanism

【技术实现步骤摘要】
一种引入推理机制的文本生成方法
本方法主要涉及文本生成方法,用于NLP(自然语言处理)领域数据到文本领域(data-to-text)。
技术介绍
数据到文本(data-to-text)[1](Data-to-textgeneration技术,文献引自Cambridgeuniversitypress.,年份:2000年,作者:EhudReiterandRobertDale.2000.题目:Buildingnaturallanguagegenerationsystems.),即由给出的数据信息,生成有关给出数据信息的文本。目前是自然语言处理领域一个非常有前沿性的研究,涉及人传传记、NBA比赛、棒球比赛、财经报道等相关工作。现有的数据生成文本(data-to-text),大都是基于直接对表格数据中显式存在的信息来进行描述,对于表格信息中没有直接显式表示的信息(例如,球队A以110:106,4分险胜球队B,4分;球员C和球员D两人联合得分36分,4分和36分这两个数据在表格中没有出现),则往往生成类似表达时,出现错误。在目前已公开的研究中,table-to-text生成方法的各种模型,CC(Wisemanetal.,2017)[2](作者:SamWiseman,StuartM.Shieber,andAlexanderM.Rush.年份:2017.题目:Challengesindata-to-documentgeneration.会议:InProceedingsofthe2017ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.)等,大部分都是直接依靠模型本身进行训练,并没有直接针对这些表格信息不存在的信息进行单独处理,因此对于这些需要推理的信息,往往不能生成。论文《OperationsGuidedNeuralNetworksforHighFidelityData-To-TextGeneration》[3](作者:FengNie1,JinpengWang,Jin-GeYao,RongPan,Chin-YewLin.年份:2018.题目:OperationsGuidedNeuralNetworksforHighFidelityData-To-TextGeneration.会议:InProceedingsofthe2018ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.)中针对以上无法生成需要推理计算的信息,提出了预先增加数据的方式。即预先增加大量要推理的数字信息到表格里,丰富表格建模,例如将球队A以110:106,4分险胜球队B,4分这个数据加入到表格表示之中,进行建模。在一定程度上缓解了不能生成类似表达的问题,但是同时,由于增加了大量可能无用的表格信息(例如两个替补球员联合得到了1个篮板,这样的数据,往往在文本生成中是不需要的),导致准确的生成球队A以110:106,4分险胜球队B,4分这样的文本数字的准确率不高,同时也使得总体生成文本的准确性下降。
技术实现思路
本专利技术的目的是为了解决现有数据生成文本中数据信息推理表格信息中隐含信息准确率低的问题,而提出一种引入推理机制的文本生成方法。一种引入推理机制的文本生成方法具体过程为:步骤一、用#号替换表格数据信息对应的新闻报告中能推理的数字;步骤二、将步骤一用#号替换后的表格的数据集转化成若干个三元组;再对得到的三元组进行自身实体属性建模得到相应的向量最后,对同一个实体的所有记录进行MeanPooling,得到同一实体的总体表示rowi;步骤三、采用解码器LSTM对步骤二得到的同一实体的总体表示rowi进行解码,生成每个三元组的权重;解码器根据三元组权重生成具体的文字,通过解码生成具体的文字有两种方式,一种从三元组中拷贝,即拷贝概率,另一种从词表中选择一个词来生成,即生成概率;若生成的文字是“#”号,触发推理按钮,解码器LSTM将当前已经蕴含了已经生成文字的语义信息隐层状态H作为推理输入,生成计算序列,将计算序列得到的结果返回触发推理按钮位置,替换“#”号,解码器继续依次生成文字,直到文字生成了EOS结束标识,文字生成结束;得到神经网络网格推理模型。本专利技术的有益效果为:本专利技术针对以上的问题提出了在生成文本中引入multitask(多任务学习)方式,具体的即在模型解码时刻嵌入一个gate(门控机制),由门控机制,判断当前生成的文本是否需要进行推理,如解码时刻生成指定标识时,触发按钮,进入推理模块,例如当需要推理4分这样的数字时,在该位置生成了标识“#”触发门机制,进入推理数字的模型中,获取当前推理数字的上下文信息,进行推理任务学习,生成推理序列,将生成的推理序列的结果返回填入触发门机制的位置,完成推理,继续生成文本,提高了现有数据生成文本中数据信息推理表格信息中隐含信息准确率。本专利技术方法在ROTOWIRE数据集上进行了实验,证明了本专利技术提出的方法是有效的,将生成需要推理文本的准确率提高到了65%,同时在BLEU等评价指标上也达到了19,提升了2个多点,优于目前提出的所有模型。附图说明图1为本专利技术流程图,BOS为开始生成文本标识,EOS为结束生成文本标志,图中模型正在生成本场比赛得分为99-86,马刺队以4分险胜火箭队,生成4分时,触发按钮,进入推理机制,生成计算序列,返回填槽位置;图2a为三元组拆分后的行数据-为球队的所有信息图;图2b为三元组拆分后的行数据-为球员的所有信息图。具体实施方式具体实施方式一:结合图1说明本实施方式,本实施方式一种基于推理机制的文本生成方法具体过程为:具体实验在rotowireNBA比赛数据集上进行验证。rotowireNBA比赛数据集是发布于2017年EMNLP会议,由哈佛大学自然语言处理研究组在《ChallengesinData-to-documentGeneration》论文中提出。爬取了4000多场NBA比赛数据,每场比如包括主客队和所属球员的相关数据信息,以及每场比赛后由体育记者发布的新闻报道。为了验证提出方法的有效性和通用性,在基线模型CC(Wisemanetal.,2017)和层次化模型Hier(对数据进行实体表示建模)两个模型上,均进行了实验验证。步骤一、用#号替换表格数据信息对应的新闻报告中能推理的数字;步骤二、将步骤一用#号替换后的表格的数据集(每场NBA比赛的表格数据)转化成若干个三元组,每个三元组具体形式为(球员/球队,具体属性,值),例如(湖人队,总得分,123),得到一场NBA比赛对应602个三元组;再对得到的三元组进行自身实体属性建模得到相应的向量最后,对同一个实体的所有记录(即一行的数据)进行MeanPooling(均值池化),得到同一实体(球员/球队)的总体表示rowi(hier模型);步本文档来自技高网
...

【技术保护点】
1.一种引入推理机制的文本生成方法,其特征在于:所述方法具体过程为:/n步骤一、用#号替换表格数据信息对应的新闻报告中能推理的数字;/n步骤二、将步骤一用#号替换后的表格的数据集转化成若干个三元组;再对得到的三元组进行自身实体属性建模得到相应的向量

【技术特征摘要】
1.一种引入推理机制的文本生成方法,其特征在于:所述方法具体过程为:
步骤一、用#号替换表格数据信息对应的新闻报告中能推理的数字;
步骤二、将步骤一用#号替换后的表格的数据集转化成若干个三元组;再对得到的三元组进行自身实体属性建模得到相应的向量最后,对同一个实体的所有记录进行MeanPooling,得到同一实体的总体表示rowi;
步骤三、采用解码器LSTM对步骤二得到的同一实体的总体表示rowi进行解码,生成每个三元组的权重;
解码器根据三元组权重生成具体的文字,通过解码生成具体的文字有两种方式,一种从三元组中拷贝,即拷贝概率,另一种从词表中选择一个词来生成,即生成概率;
若生成的文字是“#”号,触发推理按钮,解码器LSTM将当前已经蕴含了已经生成文字的语义信息隐层状态H作为推理输入,生成计算序列,将计算序列得到的结果返回触发推理按钮位置,替换“#”号,解码器继续依次生成文字,直到文字生成了EOS结束标识,文字生成结束;
得到神经网络网格推理模型。


2.根据权利要求1所述一种引入推理机制的文本生成方法,其特征在于:所述步骤一中用#号替换表格数据信息对应的新闻报告中能推理的数字;具体过程为:
步骤一一、在rotowire数据集中爬取NBA比赛数据,处理成如下形式:
每场NBA比赛数据包括相应的比赛数据和该场比赛对应的记者发表的新闻报道,其中比赛数据包括每场NBA比赛的主客队和所属球员的相关的表格数据信息;
步骤一二、将步骤一一中每场比赛的新闻报道中的所有数字信息统一转成阿拉伯数字;
步骤一三、判断步骤一二中的所有转成阿拉伯数字的数字信息和原先新闻报道中本身就是阿拉伯数字信息,是否在对应的表格数据中出现,若出现,则匹配成功,认为该数字不需要进行推理;若不出现,则匹配失败,认为该数字需要进行推理计算,执行步骤一四;
步骤一四、若当前需要进行推理的数字出现的句子中不出现设定的关键词,则结束;
若当前需要进行推理的数字出现的句子中出现设定的关键词,构造推理目标计算序列,得到需要推理计算的数字,执行步骤一五;
步骤一五、将新闻报道中需要计算推理的数字,用#号进行替换;#号即为设置的触发推理按钮。


3.根据权利要求1或2所述一种引入推理机制的文本生成方法,其特征在于:所述步骤二中将步骤一用#号替换后的表格的数据集转化成若干个三元组;再对得到的三元组进行自身实体属性建模得到相应的向量最后,对同一个实体的所有记录进行MeanPooling,得到同一实体的总体表示rowi;具体过程为:
步骤二一、对表格中的每一个数据进行实体属性的建模,得到表格中每个数据新的记录表示具体过程为:



式中,∝为正比,为表格第i行,第j列的记录的转置;ri,j′为表格第i行,第j′列的记录,j≠j′;Wo为训练参数,为表格的一行数据中,相关性占比的权重;



式中,为当前第i行第j列的数据在同一行数据的总体表现;
将ri,j和两者拼在一起,经过tanh函数激活,得到表格中行维度每个数据新的记录表示表达式为:



式中,Wf是训练参数,ri,j为表格第i行,第j列的记录;为表格中每个数据新的记录表示;
步骤二二、对表格中同一个行的所有记录进行均值池化,表格中同一个行属于一个实体,得到该实体的总体表示,表达式为:



式中,表示的是同一行的新的记录表示,MeanPooling为均值池化,rowi为同一实体的总体表示。


4.根据权利要求3所述一种引入推理机制的文本生成方法,其特征在于:所述步骤三中...

【专利技术属性】
技术研发人员:冯骁骋秦兵刘挺陈昱宇
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1