【技术实现步骤摘要】
一种借助互联网自动构建文本分类语料库的方法及系统
本专利技术涉及一种自动构建文本分类语料库的方法及系统。
技术介绍
随着互联网信息的高速增长,搜索引擎已成为人们浏览网络信息必不可少的工具。2012年7月发布的《中国互联网络发展状况统计报告》显示:在网民日常使用中,搜索引擎虽然排名有所下滑,但依然超越了网络音乐和新闻,成为规模第二大的应用。目前,基于人工编撰目录并对其进行索引和维护的第一代搜索引擎技术基本退出历史舞台,取代它的是基于向量空间模型、概率语言模型等模型的第二代信息检索技术,在其中由于引入了PageRank和LinkAnalysis等技术,利用机群对大量互联网网页进行索引和检索,满足了用户对于检索系统的基本要求。不过,现有系统最大的问题是用户的需求是通过关键词来进行描述的,很多情况下很难找到准确描述检索目标的关键词,因此严重影响了返回结果的准确率。同时,由于需要索引的网页数目过于庞大,为了兼顾准确率与召回率,传统的通用搜索引擎往往返回属于不同主题的搜索结果,这种策略很难满足单个用户的检索需求。为了缓解这个问题,出现了专注于某一领域的垂直搜索引擎,如学术搜索、金融搜索、音乐搜索等。这类搜索引擎通过限定爬取和索引的网页范围来达到较高的检索精度,通过用户指定的分类来进行搜索,可以更好的满足用户的不同需求。然而,对于某个概念进行分类的方法往往是多样的,比如计算机学科,可以分为软件和硬件,也可以按照涉及的不同子学科分为体系结构,操作系统,计算机网络等等。现有的垂直搜索引擎,一般是根据领域专家事先定义好的分类方式,通过人工的方法标注出训练语料来训练分类器。这个 ...
【技术保护点】
一种借助互联网自动构建文本分类语料库的方法,其特征在于,包括如下步骤:用户提供所需的文本类别体系:即包含一个或多个层次的文本类别树,用户可以指定或不指定所涉及的领域;网站结构与内容的采集整理:从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息;用户输入类别与网站结构的匹配:将用户输入的文本类别与网站内容结构进行自动匹配,一个网站中与某个文本类别匹配上的网站内容单元所包含的网页作为该文本类别的候选语料;语料库去噪:将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库,并对候选语料库中每个类别下的文本进行去噪处理,提高语料库的质量;输出语料库:输出去噪后的类别标准文本语料。
【技术特征摘要】
1.一种借助互联网自动构建文本分类语料库的方法,其特征在于,包括如下步骤:用户提供所需的文本类别体系:即包含一个或多个层次的文本类别树,用户可以指定或不指定所涉及的领域;网站结构与内容的采集整理:从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息;用户输入类别与网站结构的匹配:将用户输入的文本类别与网站内容结构进行自动匹配,一个网站中与某个文本类别匹配上的网站内容单元所包含的网页作为该文本类别的候选语料;语料库去噪:将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库,并对候选语料库中每个类别下的文本进行去噪处理,提高语料库的质量;输出语料库:输出去噪后的类别标准文本语料;在网站结构与内容的采集整理步骤中,对网站结构与内容的采集整理包括如下步骤:初始种子链接获取:使用门户网站和领域内的网站作为初始种子链接,或者由用户指定;网页数据爬取和存储:设置参数,参数包括并行通信数,每个站点的访问时间间隔,递归爬取深度;对上述初始种子链接进行递归抓取,同时记录页面间的跳转信息,将爬取得到的网页的源码文件存储在本地,用于后续对网页的离线分析和处理;导航栏提取:识别提取体现网站内部组织结构的导航栏;有效链接提取:统计各链接被赋予类别的次数,设置阈值,被赋予类别次数多于阈值的作为无效链接过滤掉,其余作为和页面主题相关的链接即有效链接;网页内容提取:根据非标签字符和标签数的比值来提取网页的正文。2.根据权利要求1所述的借助互联网自动构建文本分类语料库的方法,其特征在于,在导航栏提取步骤中,包括如下步骤:网页的页面分割:根据网页的DOM树将其分割成若干个块;基于规则过滤的导航栏抽取:通过制定规则对网页的各个分块进行过滤和排序来提取导航栏;基于图结构的导航栏抽取:将网页之间的链接关系组织成图结构,寻找极大连通子图,根据子图信息对页面的块结构进行过滤来提取导航栏。3.根据权利要求2所述的借助互联网自动构建文本分类语料库的方法,其特征在于,在网页的页面分割步骤中,包括如下步骤:网页DOM树构造:利用DOM解析器将网页解析成DOM树;网页DOM树化简:利用三个规则对网页DOM树进行化简。4.根据权利要求2所述的借助互联网自动构建文本分类语料库的方法,其特征在于,在基于规则过滤的导航栏抽取步骤中,包括如下步骤:网页块过滤:根据链接类型、链接唯一性、样式表、锚文本在源码中的距离、每个锚文本包含的最大词数特征对网页块进行过滤;网页剩余块排序:通过制定公式对...
【专利技术属性】
技术研发人员:陈清财,张亮,王丹丹,王晓龙,
申请(专利权)人:哈尔滨工业大学深圳研究生院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。