一种Web网页表格标题生成方法技术

技术编号:25836571 阅读:48 留言:0更新日期:2020-10-02 14:17
本发明专利技术公开了一种Web网页表格标题生成方法,通过生成标题而不是选择现有文本字符串或对现有文本字符串进行排名生成标题,即使在源文本中不存在时也能够构成高质量的标题字符串;通过复制机制和生成机制的序列到序列神经网络模型的高质量表标题生成框架,为这些半结构数据生成高质量的标题。

【技术实现步骤摘要】
一种Web网页表格标题生成方法
本专利技术涉及自然语言处理
,尤其涉及一种Web网页表格标题生成方法。
技术介绍
现代搜索引擎不再简单地返回相关链接网页,而是根据用户的搜索信息返回以半结构化的方式显示的窗体,如表或列表;但这些半结构数据并没有明确的标识概括其内容,不利于用户查看,所以给这些半结构化数据设置一个标题是十分重要的,但是由于这些返回的数据都不是固定的,并不能通过人为设置标题。现有生成表格标题方法的缺陷在于对于网页中文本标签的依赖性过强,不能实现灵活地生成概括性强且语义自然的表格标题,主要以以下两种方式为主:一种常见的方法是直接通过选择页面中最具有概括性的文本片段作为标题,但此方法要求一个高质量的标题出现在网页上的某个地方且当现有文本片段与某个表相关时,它们通常只包含该表的理想标题的一部分,不能有效概括表格整体内容;另一种方法是通过挖掘之前用户在浏览器中搜索该表内容的查询日志,将查询日志中用户查询内容做为候选标题,但该方法的成功取决于高质量的标题,且该标题取决于存在先验条件可供选择。对于很少查询的表,成功的可能性不大。此外,对于其中具有多个表的网页,将导致查询该页面中其他相关的表变得更加困难。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种Web网页表格标题生成方法,本专利技术的技术本质在于提出一种具有复制机制和生成机制的序列到序列神经网络模型,通过生成标题而不是选择现有文本字符串或对现有文本字符串进行排名生成标题,即使在源文本中不存在时也能够构成高质量的标题字符串;通过复制机制和生成机制的序列到序列神经网络模型的高质量表标题生成框架,为这些半结构数据生成高质量的标题。本专利技术通过以下技术方案来实现上述目的:一种Web网页表格标题生成方法,包括以下步骤:步骤1:本文选择:包括:页面标题、节标题、表标题、生成标题、列标题、前缀文本、后缀文本和表格行内容;步骤2:数据采集:利用网页爬虫技术进行数据采集,通过对每张表的相关内容进行处理,以人工的方式为每个表格生成标题,以<表格文本,生成的标题>格式来构建模型训练所需的训练集、验证集和测试集数据;步骤3:模型选择:选择基于注意力机制序列到序列机制的指针生成器网络模型,利用注意力机制的解码器-编码器上的工作体将这些数据元结构化字段建模为一个序列,将序列数据输入到模型中,进行训练;步骤4:利用训练集数据训练模型:将这些字段令牌进行处理后输入到编码器中,Encoder端是一个双向的LSTM,这个双向的LSTM可以捕获原文本的长距离依赖关系以及位置信息,将输入的第i个字段令牌yi作为编码器第i步的输入,其双向LSTM再第i步产生两个相反的隐藏层状态在每一步中连接正反反向的隐藏层状态得到每一步的编码状态hi;在解码器端,解码器是一个单向的LSTM,训练阶段时表格数据元依次输入,在时间步t得到解码状态st;使用hi和st得到该时间步原文第i个词注意力权重:at=softmax(et)上式中的vT,Wh,Ws和battn是模型需要学习的参数,得到的at是编码器的输入文本上的一个概率分布;由上式可知,其注意力分布由编码器隐藏层状态hi,解码器隐藏层状态st共同决定;每一个词都对应一个概率值可以理解该词所获取的注意力权重,我们将该词对应的隐藏层状态hi与相乘,并且求和,得到上下文向量可以看成是该时间步通读了原文的固定尺寸的标准,然后将ht和经过两层线性层得到单词表分布Pvocab:其中V′、V、b、b′都是模型需要学习的参数,Pvocab为预设词表上的概率分布;在每个解码步骤中,使用线性层计算标量值pgen∈(0,1)如下:pgen是介于0到1之间的标量,它代表从词汇集中生成一个单词的概率,而不是从源文本进行复制;当要生成的词不在预设词表里,而出现在文章编码器的输入文本里时,该机制会使模型有机会直接从编码器的输入文本中取词,从而部分缓解了OOV问题;其中是上下文向量,ht是隐藏的解码器状态,st是解码器输入,和bptr是可学习的参数,σ表示sigmoid函数标量pgen用于对词汇分布pvocab和注意分布pattn进行加权,生成最终分布在词汇表和输入标记的联合中定义每个标记词汇w:生成单词w的概率等于从词汇集生成w的概率再加上指向原文本任何位置出现该词的概率;当该词不在预设表中,则pvocab(w)=0,故该词只能从编码器的输入文本中去取值,反之,若该词出现在预设词表中,而不是编码器输入文本内,则则该词只能从词表中去取;本模型的损失函数是所生成序列的平均负对数似然率:每进行一定次数训练后就利用验证集来检验当前训练的模型是否已经过拟,如果过拟则停止训练,否则继续训练;步骤5:利用测试集数据测试模型的准确度:在模型训练过程中会得到多个模型,选择在验证集上损失值最低的模型作为模型训练得到的最优模型,测试集输入到最有模型中,进行解码,解码器每一步解码时,都会得到在扩展词表上的概率分布,利用BeamSearch方式从该分布中采样得到一个词,作为该步所生成的词,这样在解码完成后就会得到连续的多个词,连在一起就是一个完整的句子,即是所要生成的表格标题。进一步方案为,所述步骤4中,利用训练集来训练模型,利用验证集来检测当前训练的模型是否已经过拟,如果过拟,则停止训练,否则继续训练:每次从训练集中随机抽取一批样本,供模型进行训练;每进行50次该操作,保存当前训练好的模型,输入验证集,计算当前模型的验证集上的损失值,并画出损失值的变化曲线,当越过最低点时,说明该模型已经发生过度拟合,则应停止训练;结束训练后,选择出最优模型,并进行测试,验证其生成表格标题的精确度。进一步方案为,通过将算法的概率归零,来禁止算法在一个标题中生成两次相同的令牌。本专利技术的有益效果在于:本专利技术提出了一个用于生成高质量表标题的新框架。该方法利用了具有复制机制和生成机制的序列到序列神经网络模型,通过生成标题而不是选择现有文本字符串或对现有文本字符串进行排名,这种方法即使在源文本不存在的情况下也能构成高质量的标题字符串。同时,借助复制机制,可以检索稀有令牌和OOV令牌。此外,作为一种高容量的机器学习模型,具有足够的训练数据,与大多数基于启发式的方法相比,该模型能够学习和利用更多细微差别的模式,从而使其对于各种表都更加健壮;并且生成的标题具有语意自然,概括性强的特性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要实用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术整体流程图;图2为本专利技术搜索引擎返回的半结构化数据图;图3为本专利技术数据元收集图;...

【技术保护点】
1.一种Web网页表格标题生成方法,其特征在于,包括以下步骤:/n步骤1:本文选择:包括:页面标题、节标题、表标题、生成标题、列标题、前缀文本、后缀文本和表格行内容;/n步骤2:数据采集:利用网页爬虫技术进行数据采集,通过对每张表的相关内容进行处理,以人工的方式为每个表格生成标题,以<表格文本,生成的标题>格式来构建模型训练所需的训练集、验证集和测试集数据;/n步骤3:模型选择:选择基于注意力机制序列到序列机制的指针生成器网络模型,利用注意力机制的解码器-编码器上的工作体将这些数据元结构化字段建模为一个序列,将序列数据输入到模型中,进行训练;/n步骤4:利用训练集数据训练模型:将这些字段令牌进行处理后输入到编码器中,Encoder端是一个双向的LSTM,这个双向的LSTM可以捕获原文本的长距离依赖关系以及位置信息,将输入的第i个字段令牌y

【技术特征摘要】
1.一种Web网页表格标题生成方法,其特征在于,包括以下步骤:
步骤1:本文选择:包括:页面标题、节标题、表标题、生成标题、列标题、前缀文本、后缀文本和表格行内容;
步骤2:数据采集:利用网页爬虫技术进行数据采集,通过对每张表的相关内容进行处理,以人工的方式为每个表格生成标题,以<表格文本,生成的标题>格式来构建模型训练所需的训练集、验证集和测试集数据;
步骤3:模型选择:选择基于注意力机制序列到序列机制的指针生成器网络模型,利用注意力机制的解码器-编码器上的工作体将这些数据元结构化字段建模为一个序列,将序列数据输入到模型中,进行训练;
步骤4:利用训练集数据训练模型:将这些字段令牌进行处理后输入到编码器中,Encoder端是一个双向的LSTM,这个双向的LSTM可以捕获原文本的长距离依赖关系以及位置信息,将输入的第i个字段令牌yi作为编码器第i步的输入,其双向LSTM再第i步产生两个相反的隐藏层状态






在每一步中连接正反反向的隐藏层状态得到每一步的编码状态hi;



在解码器端,解码器是一个单向的LSTM,训练阶段时表格数据元依次输入,在时间步t得到解码状态st;使用hi和st得到该时间步原文第i个词注意力权重:



at=softmax(et)
上式中的vT,Wh,Ws和battn是模型需要学习的参数,得到的at是编码器的输入文本上的一个概率分布;由上式可知,其注意力分布由编码器隐藏层状态hi,解码器隐藏层状态st共同决定;每一个词都对应一个概率值可以理解该词所获取的注意力权重,我们将该词对应的隐藏层状态hi与相乘,并且求和,得到上下文向量




可以看成是该时间步通读了原文的固定尺寸的标准,然后将ht和经过两层线性层得到单词表分布Pvocab:



其中V′、V、b、b′都是模型需要学习的参数,Pvocab为预设词表上的概率分布;
在每个解码步骤中,使用线性层计算标量值Pgen∈(0,1)如下:



Pgen是介于0到1之间的标量,它代表从词汇集中生成一个单词...

【专利技术属性】
技术研发人员:张余平
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1