【技术实现步骤摘要】
一种引入推理机制的文本生成方法
本方法主要涉及文本生成方法,用于NLP(自然语言处理)领域数据到文本领域(data-to-text)。
技术介绍
数据到文本(data-to-text)[1](Data-to-textgeneration技术,文献引自Cambridgeuniversitypress.,年份:2000年,作者:EhudReiterandRobertDale.2000.题目:Buildingnaturallanguagegenerationsystems.),即由给出的数据信息,生成有关给出数据信息的文本。目前是自然语言处理领域一个非常有前沿性的研究,涉及人传传记、NBA比赛、棒球比赛、财经报道等相关工作。现有的数据生成文本(data-to-text),大都是基于直接对表格数据中显式存在的信息来进行描述,对于表格信息中没有直接显式表示的信息(例如,球队A以110:106,4分险胜球队B,4分;球员C和球员D两人联合得分36分,4分和36分这两个数据在表格中没有出现),则往往生成类似表达时,出现错误。在目前已公开的研究中,table-to-text生成方法的各种模型,CC(Wisemanetal.,2017)[2](作者:SamWiseman,StuartM.Shieber,andAlexanderM.Rush.年份:2017.题目:Challengesindata-to-documentgeneration.会议:InProceedingsofthe2017ConferenceonEmpi ...
【技术保护点】
1.一种引入推理机制的文本生成方法,其特征在于:所述方法具体过程为:/n步骤一、用#号替换表格数据信息对应的新闻报告中能推理的数字;/n步骤二、将步骤一用#号替换后的表格的数据集转化成若干个三元组;再对得到的三元组进行自身实体属性建模得到相应的向量
【技术特征摘要】
1.一种引入推理机制的文本生成方法,其特征在于:所述方法具体过程为:
步骤一、用#号替换表格数据信息对应的新闻报告中能推理的数字;
步骤二、将步骤一用#号替换后的表格的数据集转化成若干个三元组;再对得到的三元组进行自身实体属性建模得到相应的向量最后,对同一个实体的所有记录进行MeanPooling,得到同一实体的总体表示rowi;
步骤三、采用解码器LSTM对步骤二得到的同一实体的总体表示rowi进行解码,生成每个三元组的权重;
解码器根据三元组权重生成具体的文字,通过解码生成具体的文字有两种方式,一种从三元组中拷贝,即拷贝概率,另一种从词表中选择一个词来生成,即生成概率;
若生成的文字是“#”号,触发推理按钮,解码器LSTM将当前已经蕴含了已经生成文字的语义信息隐层状态H作为推理输入,生成计算序列,将计算序列得到的结果返回触发推理按钮位置,替换“#”号,解码器继续依次生成文字,直到文字生成了EOS结束标识,文字生成结束;
得到神经网络网格推理模型。
2.根据权利要求1所述一种引入推理机制的文本生成方法,其特征在于:所述步骤一中用#号替换表格数据信息对应的新闻报告中能推理的数字;具体过程为:
步骤一一、在rotowire数据集中爬取NBA比赛数据,处理成如下形式:
每场NBA比赛数据包括相应的比赛数据和该场比赛对应的记者发表的新闻报道,其中比赛数据包括每场NBA比赛的主客队和所属球员的相关的表格数据信息;
步骤一二、将步骤一一中每场比赛的新闻报道中的所有数字信息统一转成阿拉伯数字;
步骤一三、判断步骤一二中的所有转成阿拉伯数字的数字信息和原先新闻报道中本身就是阿拉伯数字信息,是否在对应的表格数据中出现,若出现,则匹配成功,认为该数字不需要进行推理;若不出现,则匹配失败,认为该数字需要进行推理计算,执行步骤一四;
步骤一四、若当前需要进行推理的数字出现的句子中不出现设定的关键词,则结束;
若当前需要进行推理的数字出现的句子中出现设定的关键词,构造推理目标计算序列,得到需要推理计算的数字,执行步骤一五;
步骤一五、将新闻报道中需要计算推理的数字,用#号进行替换;#号即为设置的触发推理按钮。
3.根据权利要求1或2所述一种引入推理机制的文本生成方法,其特征在于:所述步骤二中将步骤一用#号替换后的表格的数据集转化成若干个三元组;再对得到的三元组进行自身实体属性建模得到相应的向量最后,对同一个实体的所有记录进行MeanPooling,得到同一实体的总体表示rowi;具体过程为:
步骤二一、对表格中的每一个数据进行实体属性的建模,得到表格中每个数据新的记录表示具体过程为:
式中,∝为正比,为表格第i行,第j列的记录的转置;ri,j′为表格第i行,第j′列的记录,j≠j′;Wo为训练参数,为表格的一行数据中,相关性占比的权重;
式中,为当前第i行第j列的数据在同一行数据的总体表现;
将ri,j和两者拼在一起,经过tanh函数激活,得到表格中行维度每个数据新的记录表示表达式为:
式中,Wf是训练参数,ri,j为表格第i行,第j列的记录;为表格中每个数据新的记录表示;
步骤二二、对表格中同一个行的所有记录进行均值池化,表格中同一个行属于一个实体,得到该实体的总体表示,表达式为:
式中,表示的是同一行的新的记录表示,MeanPooling为均值池化,rowi为同一实体的总体表示。
4.根据权利要求3所述一种引入推理机制的文本生成方法,其特征在于:所述步骤三中...
【专利技术属性】
技术研发人员:冯骁骋,秦兵,刘挺,陈昱宇,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:黑龙;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。