一种基于搜索引擎的主题语料构建方法及系统技术方案

技术编号:21454036 阅读:25 留言:0更新日期:2019-06-26 04:48
本发明专利技术涉及一种基于搜索引擎的主题语料构建方法及系统。该方法包括以下步骤:1)利用搜索引擎获取主题相关的种子网页;2)对种子网页进行扩展以发现列表页;3)对列表页进行判断,得到与主题真正相关的列表页;4)对与主题真正相关的列表页中的链接进行抽取,并对链接进行下载得到原始网页;5)对原始网页进行正文抽取,形成最终的主题语料。该系统包括:种子网页获取单元、列表页发现单元、列表页审核单元、网页下载单元和正文抽取单元。与现有技术相比,构建同等规模主题语料本发明专利技术所需的人工标注量大幅减少,并且对各类主题语料构建都有较好的适用性。

【技术实现步骤摘要】
一种基于搜索引擎的主题语料构建方法及系统
本专利技术涉及语料自动构建以及基于统计机器学习的主题分类,尤其适用于主题分类缺少训练语料的问题。
技术介绍
随着人工智能的发展,文本分类在各个领域得到了广泛应用。典型分类需求包括主题分类以及情感分类等。其中,主题分类根据文档讲述的内容主题进行类别划分,从计算机的输入输出来看,输入是文档,输出是主题类别。当前,文本分类主要使用基于机器学习的分类方法。基于机器学习的文本分类方法需要有训练数据,即对每个主题类别,都要有一批和该类别相关的文本文档。这些用于构造主题分类模型的数据集也被称作主题分类语料,主题分类语料是构建主题分类模型的基础。现有主题分类语料构建往往基于人工标注。在学术界,研究人员一般采用半自动的方法收集整理互联网数据形成分类语料,构建语料的方法主要采用启发式的规则,没有统一方法。在工业界,网页分类一般使用ODP(https://en.wikipedia.org/wiki/DMOZ)项目提供的标注语料。ODP是一个开源项目,该项目包括一个类别体系(约有100多万类别)以及相关的类别文档,类别文档由广大网民人工标注提供。然而ODP的标注语料在应用中存在3个问题:一是ODP覆盖的网页大部分为英文网页;二是实际应用存在很多未定义的类别(新类);三是ODP的标记文档数量不能满足需求。
技术实现思路
针对上述问题,本专利技术提出一种通用的基于搜索引擎的主题语料构建方法及系统。本专利技术的主要思想是借助搜索引擎发现相关网站,在网站内寻找列表页(hub),对列表页进行人工审核获得相关列表页,对相关列表页进行自动翻页、下载列表中的文档形成主题语料。本专利技术采用的技术方案如下:一种基于搜索引擎的主题语料构建方法,包括以下步骤:1)利用搜索引擎获取主题相关的种子网页;2)对种子网页进行扩展以发现列表页;3)对列表页进行判断,得到与主题真正相关的列表页;4)对与主题真正相关的列表页中的链接进行抽取,并对链接进行下载得到原始网页;5)对原始网页进行正文抽取,形成最终的主题语料。进一步地,步骤1)包括:1.1)将主题词转换为搜索引擎的查询词;1.2)将查询词发送到搜索引擎,获取搜索引擎的查询结果,即相关链接,并对相关链接进行二次采集,获得网页原始内容即种子网页。进一步地,步骤1.1)使用基于知识库的方法、基于反馈的方法或者人工方法进行查询转换。进一步地,步骤2)包括:2.1)对所述种子网页进行解析,抽取其中包含的站内链接,并对链接进行下载;2.2)对下载的网页进行判别,挑选其中的列表页。进一步地,步骤3)包括:3.1)对列表页的质量进行评估,根据质量得分对页面进行过滤、排序操作;3.2)通过人工对列表页的相关性进行最终确认。一种基于搜索引擎的主题语料构建系统,其包括:种子网页获取单元,用于利用搜索引擎获取主题相关的种子网页;列表页发现单元,用于对所述种子网页进行扩展以发现列表页;列表页审核单元,用于对列表页进行判断,得到和主题真正相关的列表页;网页下载单元,用于对列表页审核单元得到的列表页中的链接进行抽取,并对链接进行下载,得到原始网页;正文抽取单元,用于对获得的原始网页进行正文抽取,形成最终的主题语料。进一步地,所述种子网页获取单元包括:查询转换模块,用于将主题词转换为搜索引擎的查询词;元搜索模块,用于将查询词发送到搜索引擎,获取搜索引擎的查询结果,即相关链接,并对链接进行二次采集,获得网页原始内容即种子网页。进一步地,所述列表页发现单元包括:站内链接扩展模块,用于对所述种子网页进行解析,抽取其中包含的站内链接,并对链接进行下载;列表页分类模块,用于对下载的网页进行判别,挑选其中的列表页。进一步地,所述列表页审核单元包括:列表页提炼模块,用于对列表页的质量进行评估,根据质量得分对页面进行过滤、排序操作;人工审核模块,用于通过人工对列表页的相关性进行最终确认。进一步地,所述网页下载单元包括自动翻页模块,所述自动翻页模块提取列表页中的翻页链接,并对其他页号的列表进行下载。与现有技术相比,本专利技术的有益效果如下:(1)构建同等规模主题语料,本专利技术所需的人工标注量较少。传统方法需要对具体单篇文档进行标注,而该方法只需要对包含文档的列表网页进行标注,列表网页所含的文档的主题相关性与列表网页主题相关性一致。列表网页借助搜索引擎以及自动化的判别工具完成初步筛选,能够提高列表网页的相关性,也大幅减少了后续人工标记的工作量。(2)本专利技术对各类主题语料构建都有较好的适用性。借助搜索引擎可以快速发现相关线索,通过列表网页发现可以快速定位主题相关文档的入口,相当于是包含大量主题相关文档的“富矿”。附图说明图1.基于搜索引擎的主题语料构建方法及系统的整体框架图。图2.新闻列表页示例图。图3.文档列表页示例图。图4.查询转换示意图。图5.元搜索模块示意图。图6.站内链接扩展示意图。图7.文档链接抽取示意图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本专利技术做进一步详细说明。本实施例的一种基于搜索引擎的主题语料构建方法,其输入为主题词,输出为主题文档集。整个方法的流程如图1所示,具体步骤包括:(1)种子网页获取。该步骤利用搜索引擎获取主题相关的种子网页。主要模块包括查询转换模块、元搜索模块。查询转换模块将主题词转换为搜索引擎的查询词,可以使用基于知识库的方法、基于反馈的方法,也可以人工进行查询转换。元搜索模块用于将查询词发送到搜索引擎,获取搜索引擎的查询结果,即相关链接,并对相关链接进行二次采集,获得网页原始内容,即种子网页。(2)列表页发现。该步骤对(1)中的种子网页进行扩展,目标是发现列表页。主要模块包括站内链接扩展模块、列表页分类模块。站内链接扩展模块对(1)中相关网页进行解析,抽取其中包含的站内链接,并对链接进行下载,扩展的深度可以作为参数提前指定。列表页分类模块对扩展网页进行判别,挑选其中的列表页。列表页是指包含多条文档链接的导航页,一般对应新闻列表或者文档列表,可以看作是进行主题文档下载的入口,常见示例如图2、图3所示。(3)列表页审核。该步对(2)返回的列表页进行判断,得到和主题真正相关的待下载的列表页。主要模块包括列表页提炼模块以及人工审核模块。列表页提炼模块由机器算法自动完成,具体操作可以包括计算列表页的主题相关性得分、对列表页排序、对列表页过滤等;人工审核模块由人工对列表页的相关性进行最终确认。(4)网页下载。该步对(3)返回的列表页中的链接进行抽取,并对链接进行下载,这些链接对应主题相关网页(或文件),即原始网页。(5)正文抽取。该步对(4)获得的原始网页进行正文抽取,去除html标记,或者提取文件中的文字内容信息,形成最终的主题语料。下面以构建“水利”主题语料为例来说明本专利技术的实施过程,具体构建方法(系统)包括以下7个部分(模块):1.查询转换查询转换将主题词转换为搜索引擎查询词,可以使用基于知识库的方法、基于反馈的方法,也可以人工进行查询转换。示意图如图4所示。(1)基于知识库的方法。可以使用维基百科、百度百科等对主题词进行扩展。如果主题词在百度百科(或维基百科)中出现,那么可以使用百科文档中的含链接的锚文本与主题词组合形成查询,也可以利用Te本文档来自技高网...

【技术保护点】
1.一种基于搜索引擎的主题语料构建方法,其特征在于,包括以下步骤:1)利用搜索引擎获取主题相关的种子网页;2)对种子网页进行扩展以发现列表页;3)对列表页进行判断,得到与主题真正相关的列表页;4)对与主题真正相关的列表页中的链接进行抽取,并对链接进行下载得到原始网页;5)对原始网页进行正文抽取,形成最终的主题语料。

【技术特征摘要】
1.一种基于搜索引擎的主题语料构建方法,其特征在于,包括以下步骤:1)利用搜索引擎获取主题相关的种子网页;2)对种子网页进行扩展以发现列表页;3)对列表页进行判断,得到与主题真正相关的列表页;4)对与主题真正相关的列表页中的链接进行抽取,并对链接进行下载得到原始网页;5)对原始网页进行正文抽取,形成最终的主题语料。2.根据权利要求1所述的方法,其特征在于,步骤1)包括:1.1)将主题词转换为搜索引擎的查询词;1.2)将查询词发送到搜索引擎,获取搜索引擎的查询结果,即相关链接,并对相关链接进行二次采集,获得网页原始内容即种子网页。3.根据权利要求2所述的方法,其特征在于,步骤1.1)使用基于知识库的方法、基于反馈的方法或者人工方法进行查询转换。4.根据权利要求1所述的方法,其特征在于,步骤2)包括:2.1)对所述种子网页进行解析,抽取其中包含的站内链接,并对链接进行下载;2.2)对下载的网页进行判别,挑选其中的列表页。5.根据权利要求1所述的方法,其特征在于,步骤3)包括:3.1)对列表页的质量进行评估,根据质量得分对页面进行过滤、排序操作;3.2)通过人工对列表页的相关性进行最终确认。6.一种基于搜索引擎的主题语料构建系统,其特征在于,包括:种子网页获取单元,用于利用搜索引擎获取主题相关...

【专利技术属性】
技术研发人员:李鹏王斌周美林齐保元梅钰
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1