一种面向构建知识图谱的网页正文抽取方法技术

技术编号:28623546 阅读:14 留言:0更新日期:2021-05-28 16:19
一种面向构建知识图谱的网页正文抽取方法,包括以下步骤:对网页进行预处理,找到其中所有的容器类信息块作为候选。对于每个候选信息块分别计算各个评价指标。将得到的指标值相乘,得到每个候选信息块的最后得分。依据得分和特定规则从中选取内容信息块,过滤一些HTML标签,从内容信息块中抽取文本内容。从而实现网页征文的抽取。本发明专利技术克服了现有技术的不足,能够解决从互联网网页、开放链接数据、开放知识库、现在百科等数据源中寻找正文文本的问题。

【技术实现步骤摘要】
一种面向构建知识图谱的网页正文抽取方法
本专利技术涉及计算机大数据处理
,具体涉及一种面向构建知识图谱的网页正文抽取方法。
技术介绍
文本信息的来源很多,对于通用知识图谱构建而言,最主要的文本来源是互联网中的网页。要使用这些文本,需要首先把网页从互联网中采集到本地,然后把其中的内容抽取出来。文本可以说是最丰富的的数据源,在互联网网页、开放链接数据、开放知识库、在线百科中,甚至是数据库中结构化数据的某些字段中,均存在大量的文本。本专利技术提出一种全新机遇启发式规则的网页征文内容抽取方法。
技术实现思路
针对现有技术的不足,本专利技术提供了一种面向构建知识图谱的网页正文抽取方法,克服了现有技术的不足,能够解决从互联网网页、开放链接数据、开放知识库、现在百科等数据源中寻找正文文本的问题。为实现以上目的,本专利技术通过以下技术方案予以实现:一种面向构建知识图谱的网页正文抽取方法,包括以下步骤:步骤S01,对网页进行预处理,找到其中所有的容器类信息块作为候选;步骤S02,对于每个候选信息块分别计算各个评价指标;步骤S03,将得到的指标值相乘,得到每个候选信息块的最后得分;步骤S04,根据步骤S03所获得分和设定规则选取内容信息块;步骤S05,过滤一些HTML标签,从内容信息块中抽取文本内容。优选地,步骤S01中所述网页预处理具体包括以下步骤:步骤S11,过滤注释;步骤S12,把网页解析成DOM树;步骤S13,获得所有容器类信息块;步骤S14,找到标题所在信息块;步骤S15,得到标题块的位置。优选地,步骤S02中所述候选信息块评价指标具体步骤如下:步骤S21,信息块中内容使用向量模型表示,两个信息块(ibi和ibj)的内容相似度可以由如下公式计算:其中wk,i为信息块ibi的第k个词的纬度值;步骤S22,两个信息块之间的相对位置权重可由如下公式计算:其中,PL是对应网页中信息块的总个数,K是一个经验参数;LOC指对应的信息块在DOM树中的序号;步骤S23,信息块的文字数量指其包含的除去HTML标签的所有文字的总数,其取值范围为大于等于零的整数;步骤S24,信息块的标签数量指该信息块中HTML标签的总数,其函数形式为TQ(ibb,TAGTYPE),其中TAGTYPE表示标签的类型,可以取值为HTs(特殊标签,包括<br/>和<p>),HTL(链接标签<a>),HTN(除HTs和HTL外的其他标签)或HT(所有标签);步骤S25,信息块的标签影响因子的定义如下式所示:其中TTQ由如下公式计算:TTQ(ibi)=TQ(ibi,HTN)+KL×TQ(ibi,HTL)+Ks×TQ(ibi,HTs)。优选地,步骤S03中所述最后得分具体步骤为:步骤S31:使用如下公式求出各信息块内容相似度标准值:步骤S32:使用如下公式求出各信息块位置权重标准值:步骤S33:使用如下公式求出各信息块文字数量标准值:步骤S34:使用如下公式求出各信息块标签数量标准值:步骤S35:使用如下公式求出各信息块的标签影响因子标准值:步骤S36:使用如下公式计算各信息块所获得分:步骤S37:选取所获得分最高的信息块即为所寻内容信息块。优选地,步骤S04中所述网页遵循设定的规则具体包括:规则1:正文内容通常比其他内容与标题的相似度更高;规则2:正文内容通常与标题比较靠近;规则3:正文内容的长度通常比网页中其他部分的长度要长;规则4:正文内容中除了换行标签<br/>和段落标签<p>外,其他标签的数量通常比较少。本专利技术提供了一种面向构建知识图谱的网页正文抽取方法。具备以下有益效果:能够解决从互联网网页、开放链接数据、开放知识库、现在百科等数据源中寻找正文文本的问题。附图说明为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对现有技术描述中所需要使用的附图作简单地介绍。图1为本专利技术提供的一种面向构建知识图谱的网页正文抽取方法方法的步骤流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述。所处理的网页应遵循以下规则:规则1:正文内容通常比其他内容与标题的相似度更高;规则2:正文内容通常与标题比较靠近;规则3:正文内容的长度通常比网页中其他部分的长度要长;规则4:正文内容中除了换行标签<br/>和段落标签<p>外,其他标签的数量通常比较少。本专利技术随机选取了若干网页进行评估,为了保证算法的通用性,这些网页来自不同的网站,每个网站选取若干网页。评价的指标选用精确度(P)。所选取的网页并不包含视频网页,因为本专利技术处理对象为文本。步骤S01,进行网页预处理。过滤注释;把网页解析成DOM树;获得所有容器类信息块;找到标题所在信息块;得到标题块的位置。步骤S02,对于每个候选信息块分别计算各个评价指标;信息块中内容使用向量模型表示,两个信息块(ibi和ibj)的内容相似度可以由如下公式计算:其中wk,i为信息块ibi的第k个词的纬度值;两个信息块之间的相对位置权重可由如下公式计算:其中,PL是对应网页中信息块的总个数,K是一个经验参数;LOC指对应的信息块在DOM树中的序号;信息块的文字数量指其包含的除去HTML标签的所有文字的总数,其取值范围为大于等于零的整数;信息块的标签数量指该信息块中HTML标签的总数,其函数形式为TQ(ibb,TAGTYPE),其中TAGTYPE表示标签的类型,可以取值为HTs(特殊标签,包括<br/>和<p>),HTL(链接标签<a>),HTN(除HTs和HTL外的其他标签)或HT(所有标签)。信息块的标签影响因子的定义如下式所示:其中TTQ由如下公式计算:TTQ(ibi)=TQ(ibi,HTN)+KL×TQ(ibi,HTL)+Ks×TQ(ibi,HTs)。步骤S03,将得到的指标值相乘,得到每个候选信息块的最后得分;具体步骤为:步骤S31:使用如下公式求出各信息块内容相似度标准值:步骤S32:使用如下公式求出各信息块位置权重标准值:步骤S33:使用如下公式求出各信息块文字数量标准值:步骤S34:使用如下公式求出各信息块标签数量标准值:步骤S35:使用如下公式求出各信息块的标签影响因子标准值:步骤S36:使用如下公式本文档来自技高网...

【技术保护点】
1.一种面向构建知识图谱的网页正文抽取方法,其特征在于,包括以下步骤:/n步骤S01,对网页进行预处理,找到其中所有的容器类信息块作为候选;/n步骤S02,对于每个候选信息块分别计算各个评价指标;/n步骤S03,将得到的指标值相乘,得到每个候选信息块的最后得分;/n步骤S04,根据步骤S03所获得分和设定规则选取内容信息块;/n步骤S05,过滤一些HTML标签,从内容信息块中抽取文本内容。/n

【技术特征摘要】
1.一种面向构建知识图谱的网页正文抽取方法,其特征在于,包括以下步骤:
步骤S01,对网页进行预处理,找到其中所有的容器类信息块作为候选;
步骤S02,对于每个候选信息块分别计算各个评价指标;
步骤S03,将得到的指标值相乘,得到每个候选信息块的最后得分;
步骤S04,根据步骤S03所获得分和设定规则选取内容信息块;
步骤S05,过滤一些HTML标签,从内容信息块中抽取文本内容。


2.根据权利要求1所述的一种面向构建知识图谱的网页正文抽取方法,其特征在于,步骤S01中所述网页预处理具体包括以下步骤:
步骤S11,过滤注释;
步骤S12,把网页解析成DOM树;
步骤S13,获得所有容器类信息块;
步骤S14,找到标题所在信息块;
步骤S15,得到标题块的位置。


3.根据权利要求1所述的一种面向构建知识图谱的网页正文抽取方法,其特征在于,步骤S02中所述候选信息块评价指标具体步骤如下:
步骤S21,信息块中内容使用向量模型表示,两个信息块(ibi和ibj)的内容相似度可以由如下公式计算:



其中wk,i为信息块ibi的第k个词的纬度值;
步骤S22,两个信息块之间的相对位置权重可由如下公式计算:



其中,PL是对应网页中信息块的总个数,K是一个经验参数;LOC指对应的信息块在DOM树中的序号;
步骤S23,信息块的文字数量指其包含的除去HTML标签的所有文字的总数,其取值范围为大于等于零的整数;
步骤S24,信息块的标签数量指该信息块中HTML标签的总数,其函数形式为TQ(ibb,TAGTYPE),其中TAGTYPE表示标签的类型...

【专利技术属性】
技术研发人员:何盼陈晓峰麻沁甜刘星辰
申请(专利权)人:上海苍阙信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1