一种Web网页表格标题生成方法技术

技术编号：25836571 阅读：48 留言：0更新日期：2020-10-02 14:17

本发明专利技术公开了一种Web网页表格标题生成方法，通过生成标题而不是选择现有文本字符串或对现有文本字符串进行排名生成标题，即使在源文本中不存在时也能够构成高质量的标题字符串；通过复制机制和生成机制的序列到序列神经网络模型的高质量表标题生成框架，为这些半结构数据生成高质量的标题。

全部详细技术资料下载

【技术实现步骤摘要】
一种Web网页表格标题生成方法
本专利技术涉及自然语言处理
，尤其涉及一种Web网页表格标题生成方法。
技术介绍
现代搜索引擎不再简单地返回相关链接网页，而是根据用户的搜索信息返回以半结构化的方式显示的窗体，如表或列表；但这些半结构数据并没有明确的标识概括其内容，不利于用户查看，所以给这些半结构化数据设置一个标题是十分重要的，但是由于这些返回的数据都不是固定的，并不能通过人为设置标题。现有生成表格标题方法的缺陷在于对于网页中文本标签的依赖性过强，不能实现灵活地生成概括性强且语义自然的表格标题，主要以以下两种方式为主：一种常见的方法是直接通过选择页面中最具有概括性的文本片段作为标题，但此方法要求一个高质量的标题出现在网页上的某个地方且当现有文本片段与某个表相关时，它们通常只包含该表的理想标题的一部分，不能有效概括表格整体内容；另一种方法是通过挖掘之前用户在浏览器中搜索该表内容的查询日志，将查询日志中用户查询内容做为候选标题，但该方法的成功取决于高质量的标题，且该标题取决于存在先验条件可供选择。对于很少查询的表，成功的可能性不大。此外，对于其中具有多个表的网页，将导致查询该页面中其他相关的表变得更加困难。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种Web网页表格标题生成方法，本专利技术的技术本质在于提出一种具有复制机制和生成机制的序列到序列神经网络模型，通过生成标题而不是选择现有文本字符串或对现有文本字符串进行排名生成标题，即使在源文本中不存在时也能够构成高质量的标题

【技术保护点】
1.一种Web网页表格标题生成方法，其特征在于，包括以下步骤：/n步骤1：本文选择：包括：页面标题、节标题、表标题、生成标题、列标题、前缀文本、后缀文本和表格行内容；/n步骤2：数据采集：利用网页爬虫技术进行数据采集，通过对每张表的相关内容进行处理，以人工的方式为每个表格生成标题，以＜表格文本，生成的标题＞格式来构建模型训练所需的训练集、验证集和测试集数据；/n步骤3：模型选择：选择基于注意力机制序列到序列机制的指针生成器网络模型，利用注意力机制的解码器-编码器上的工作体将这些数据元结构化字段建模为一个序列，将序列数据输入到模型中，进行训练；/n步骤4：利用训练集数据训练模型：将这些字段令牌进行处理后输入到编码器中，Encoder端是一个双向的LSTM，这个双向的LSTM可以捕获原文本的长距离依赖关系以及位置信息，将输入的第i个字段令牌y

【技术特征摘要】
1.一种Web网页表格标题生成方法，其特征在于，包括以下步骤：
步骤1：本文选择：包括：页面标题、节标题、表标题、生成标题、列标题、前缀文本、后缀文本和表格行内容；
步骤2：数据采集：利用网页爬虫技术进行数据采集，通过对每张表的相关内容进行处理，以人工的方式为每个表格生成标题，以＜表格文本，生成的标题＞格式来构建模型训练所需的训练集、验证集和测试集数据；
步骤3：模型选择：选择基于注意力机制序列到序列机制的指针生成器网络模型，利用注意力机制的解码器-编码器上的工作体将这些数据元结构化字段建模为一个序列，将序列数据输入到模型中，进行训练；
步骤4：利用训练集数据训练模型：将这些字段令牌进行处理后输入到编码器中，Encoder端是一个双向的LSTM，这个双向的LSTM可以捕获原文本的长距离依赖关系以及位置信息，将输入的第i个字段令牌yi作为编码器第i步的输入，其双向LSTM再第i步产生两个相反的隐藏层状态

在每一步中连接正反反向的隐藏层状态得到每一步的编码状态hi；

在解码器端，解码器是一个单向的LSTM，训练阶段时表格数据元依次输入，在时间步t得到解码状态st；使用hi和st得到该时间步原文第i个词注意力权重：

at＝softmax(et)
上式中的vT，Wh，Ws和battn是模型需要学习的参数，得到的at是编码器的输入文本上的一个概率分布；由上式可知，其注意力分布由编码器隐藏层状态hi，解码器隐藏层状态st共同决定；每一个词都对应一个概率值可以理解该词所获取的注意力权重，我们将该词对应的隐藏层状态hi与相乘，并且求和，得到上下文向量

可以看成是该时间步通读了原文的固定尺寸的标准，然后将ht和经过两层线性层得到单词表分布Pvocab：

其中V′、V、b、b′都是模型需要学习的参数，Pvocab为预设词表上的概率分布；
在每个解码步骤中，使用线性层计算标量值Pgen∈(0，1)如下：

Pgen是介于0到1之间的标量，它代表从词汇集中生成一个单词...

【专利技术属性】
技术研发人员：张余平，
申请(专利权)人：四川长虹电器股份有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人