一种面向构建知识图谱的网页正文抽取方法技术

技术编号：28623546 阅读：14 留言：0更新日期：2021-05-28 16:19

一种面向构建知识图谱的网页正文抽取方法，包括以下步骤：对网页进行预处理，找到其中所有的容器类信息块作为候选。对于每个候选信息块分别计算各个评价指标。将得到的指标值相乘，得到每个候选信息块的最后得分。依据得分和特定规则从中选取内容信息块，过滤一些HTML标签，从内容信息块中抽取文本内容。从而实现网页征文的抽取。本发明专利技术克服了现有技术的不足，能够解决从互联网网页、开放链接数据、开放知识库、现在百科等数据源中寻找正文文本的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向构建知识图谱的网页正文抽取方法
本专利技术涉及计算机大数据处理
，具体涉及一种面向构建知识图谱的网页正文抽取方法。
技术介绍
文本信息的来源很多，对于通用知识图谱构建而言，最主要的文本来源是互联网中的网页。要使用这些文本，需要首先把网页从互联网中采集到本地，然后把其中的内容抽取出来。文本可以说是最丰富的的数据源，在互联网网页、开放链接数据、开放知识库、在线百科中，甚至是数据库中结构化数据的某些字段中，均存在大量的文本。本专利技术提出一种全新机遇启发式规则的网页征文内容抽取方法。
技术实现思路
针对现有技术的不足，本专利技术提供了一种面向构建知识图谱的网页正文抽取方法，克服了现有技术的不足，能够解决从互联网网页、开放链接数据、开放知识库、现在百科等数据源中寻找正文文本的问题。为实现以上目的，本专利技术通过以下技术方案予以实现：一种面向构建知识图谱的网页正文抽取方法，包括以下步骤：步骤S01，对网页进行预处理，找到其中所有的容器类信息块作为候选；步骤S02，对于每个候选信息块分别计算各个评价指标；步骤S03，将得到的指标值相乘，得到每个候选信息块的最后得分；步骤S04，根据步骤S03所获得分和设定规则选取内容信息块；步骤S05，过滤一些HTML标签，从内容信息块中抽取文本内容。优选地，步骤S01中所述网页预处理具体包括以下步骤：步骤S11，过滤注释；步骤S12，把网页解析成DOM树；步骤S13，获得所...

【技术保护点】
1.一种面向构建知识图谱的网页正文抽取方法，其特征在于，包括以下步骤：/n步骤S01，对网页进行预处理，找到其中所有的容器类信息块作为候选；/n步骤S02，对于每个候选信息块分别计算各个评价指标；/n步骤S03，将得到的指标值相乘，得到每个候选信息块的最后得分；/n步骤S04，根据步骤S03所获得分和设定规则选取内容信息块；/n步骤S05，过滤一些HTML标签，从内容信息块中抽取文本内容。/n

【技术特征摘要】
1.一种面向构建知识图谱的网页正文抽取方法，其特征在于，包括以下步骤：
步骤S01，对网页进行预处理，找到其中所有的容器类信息块作为候选；
步骤S02，对于每个候选信息块分别计算各个评价指标；
步骤S03，将得到的指标值相乘，得到每个候选信息块的最后得分；
步骤S04，根据步骤S03所获得分和设定规则选取内容信息块；
步骤S05，过滤一些HTML标签，从内容信息块中抽取文本内容。

2.根据权利要求1所述的一种面向构建知识图谱的网页正文抽取方法，其特征在于，步骤S01中所述网页预处理具体包括以下步骤：
步骤S11，过滤注释；
步骤S12，把网页解析成DOM树；
步骤S13，获得所有容器类信息块；
步骤S14，找到标题所在信息块；
步骤S15，得到标题块的位置。

3.根据权利要求1所述的一种面向构建知识图谱的网页正文抽取方法，其特征在于，步骤S02中所述候选信息块评价指标具体步骤如下：
步骤S21，信息块中内容使用向量模型表示，两个信息块(ibi和ibj)的内容相似度可以由如下公式计算：

其中wk,i为信息块ibi的第k个词的纬度值；
步骤S22，两个信息块之间的相对位置权重可由如下公式计算：

其中，PL是对应网页中信息块的总个数，K是一个经验参数；LOC指对应的信息块在DOM树中的序号；
步骤S23，信息块的文字数量指其包含的除去HTML标签的所有文字的总数，其取值范围为大于等于零的整数；
步骤S24，信息块的标签数量指该信息块中HTML标签的总数，其函数形式为TQ(ibb,TAGTYPE)，其中TAGTYPE表示标签的类型...

【专利技术属性】
技术研发人员：何盼，陈晓峰，麻沁甜，刘星辰，
申请(专利权)人：上海苍阙信息科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人