一种借助互联网自动构建文本分类语料库的方法及系统技术方案

技术编号:10106550 阅读:346 留言:0更新日期:2014-06-01 21:03
本发明专利技术公开了一种借助互联网自动构建文本分类语料库的方法及系统,该方法包括如下步骤:用户提供所需的文本类别体系,网站结构与内容的采集整理,用户输入类别与网站结构的匹配,语料库去噪,输出语料库。本发明专利技术的技术效果是:利用互联网上各类网站上存在的类别标注信息,无需专业的人员手工标注,自适应不同用户的分类体系需求。它改变了传统的语料库构建系统需要大量的具有一定专业知识的人员加入标注的方式,采用对互联网上的丰富信息进行自动的抽取和挖掘的方式,可快速的构建出大容量的精准的文本分类语料库。

【技术实现步骤摘要】
一种借助互联网自动构建文本分类语料库的方法及系统
本专利技术涉及一种自动构建文本分类语料库的方法及系统。
技术介绍
随着互联网信息的高速增长,搜索引擎已成为人们浏览网络信息必不可少的工具。2012年7月发布的《中国互联网络发展状况统计报告》显示:在网民日常使用中,搜索引擎虽然排名有所下滑,但依然超越了网络音乐和新闻,成为规模第二大的应用。目前,基于人工编撰目录并对其进行索引和维护的第一代搜索引擎技术基本退出历史舞台,取代它的是基于向量空间模型、概率语言模型等模型的第二代信息检索技术,在其中由于引入了PageRank和LinkAnalysis等技术,利用机群对大量互联网网页进行索引和检索,满足了用户对于检索系统的基本要求。不过,现有系统最大的问题是用户的需求是通过关键词来进行描述的,很多情况下很难找到准确描述检索目标的关键词,因此严重影响了返回结果的准确率。同时,由于需要索引的网页数目过于庞大,为了兼顾准确率与召回率,传统的通用搜索引擎往往返回属于不同主题的搜索结果,这种策略很难满足单个用户的检索需求。为了缓解这个问题,出现了专注于某一领域的垂直搜索引擎,如学术搜索、金融搜索、音乐搜索等。这类搜索引擎通过限定爬取和索引的网页范围来达到较高的检索精度,通过用户指定的分类来进行搜索,可以更好的满足用户的不同需求。然而,对于某个概念进行分类的方法往往是多样的,比如计算机学科,可以分为软件和硬件,也可以按照涉及的不同子学科分为体系结构,操作系统,计算机网络等等。现有的垂直搜索引擎,一般是根据领域专家事先定义好的分类方式,通过人工的方法标注出训练语料来训练分类器。这个过程费时费力,结果容易受到标注人个人倾向的影响,而且一旦分类方式发生变化,这一切又得从头再来。所以,这样的分类方式难以满足人们对不同领域的分类需求,更无法随用户需求的改变进行灵活调整。同时,网络上有一些网页是具有某些标注信息的或者是已经经过初步分类的,比如门户网站的导航栏一般都分为新闻、军事、博客等等很多子版块,关注于某个特定领域的网站一般都会按照相关领域的某种分类方式来构造。如何构造一种方法,使其能够自动利用这些已有的网页分类信息来自动构建分类语料库,是本专利技术要重点研究和探讨的问题。
技术实现思路
为了解决现有技术中的问题,本专利技术提供了一种借助互联网自动构建文本分类语料库的方法。本专利技术提供了一种借助互联网自动构建文本分类语料库的方法,包括如下步骤:用户提供所需的文本类别体系:即包含一个或多个层次的文本类别树,用户可以指定或不指定所涉及的领域;网站结构与内容的采集整理:从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息;用户输入类别与网站结构的匹配:将用户输入的文本类别与网站内容结构进行自动匹配,一个网站中与某个文本类别匹配上的网站内容单元所包含的网页作为该文本类别的候选语料;语料库去噪:将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库,并对候选语料库中每个类别下的文本进行去噪处理,提高语料库的质量;输出语料库:输出去噪后的类别标准文本语料。本专利技术的进一步技术方案是:在网站结构与内容的采集整理中,包括如下步骤:初始种子链接获取:使用门户网站和领域内的网站作为初始种子链接,或者由用户指定;网页数据爬取和存储:设置参数,参数包括并行通信数,每个站点的访问时间间隔,递归爬取深度,对上述初始种子链接进行递归抓取,同时记录页面间的跳转信息,将爬取得到的网页的源码文件存储在本地,用于后续对网页的离线分析和处理;导航栏提取:识别提取体现网站内部组织结构的导航栏;有效链接提取:统计各链接被赋予类别的次数,设置阈值,被赋予类别次数多于阈值的作为无效链接过滤掉,其余作为和页面主题相关的链接即有效链接;网页内容提取:根据非标签字符和标签数的比值来提取网页的正文。本专利技术的进一步技术方案是:在导航栏提取步骤中,包括如下步骤:网页的页面分割:根据网页的DOM树将其分割成若干个块;基于规则过滤的导航栏抽取:通过制定规则对网页的各个分块进行过滤和排序来提取导航栏;基于图结构的导航栏抽取:将网页之间的链接关系组织成图结构,寻找极大连通子图,根据子图信息对页面的块结构进行过滤来提取导航栏。本专利技术的进一步技术方案是:在网页的页面分割步骤中,包括如下步骤:网页DOM树构造:利用DOM解析器将网页解析成DOM树;网页DOM树化简:利用三个规则对网页DOM树进行化简。本专利技术的进一步技术方案是:在基于规则过滤的导航栏抽取步骤中,包括如下步骤:网页块过滤:根据链接类型、链接唯一性、样式表、锚文本在源码中的距离、每个锚文本包含的最大词数特征对网页块进行过滤;网页剩余块排序:通过制定公式对网页中过滤后剩余的块进行打分并排序;输出候选导航栏:根据网页剩余各块的排名和各个块的得分置信度来输出候选导航栏。本专利技术的进一步技术方案是:在基于图结构的导航栏抽取步骤中,包括如下步骤:构造页面的链接关系图:将网页之间的链接指向关系表示成图;获取极大完全子图:从页面的链接关系图中找出所有的极大完全子图,即:子图中任意两个节点直接相邻,并且此子图不被其他具有上述属性的子图包含;识别候选导航栏:根据极大完全子图对页面的块结构进行过滤来得到候选导航栏。本专利技术的进一步技术方案是:在网页内容提取步骤中,包括如下步骤:网页源码行特征抽取:对网页源码中的每一行抽取二维特征,即:标签比和标签比导数;网页源码行聚类获取正文:利用抽取出的二维特征和k-Means方法对网页源码中的所有行进行聚类,保证对非正文的去除效果。本专利技术的进一步技术方案是:在网页源码行特征抽取步骤中,包括如下步骤:计算行标签比,即:行包含的非HTML标签字符数和同一行标签数目的比值;行标签比平滑:采用高斯过滤器对标签比的数据进行过滤归一,用这个过滤器与标签比进行卷积运算来平滑行标签比;行标签比求导:计算行标签比的近似导数。本专利技术的进一步技术方案是:在用户输入类别与网站结构的匹配步骤中,包括如下步骤:相似度计算:向量化每个导航项和每个类别,计算它们之间的余弦相似度;获取导航项所属类别:根据导航项和类别之间的相似度,结合导航项的链接URL决定导航项所属的类别。本专利技术还提供了一种借助互联网自动构建文本分类语料库的系统,包括:用户文本分类体系获取单元,用于提供所需的文本类别体系,包含一个或多个层次的文本类别树,用户可以指定或不指定所涉及的领域;网站结构与内容的采集整理单元,用于从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息;用户输入类别与网站结构的匹配单元,用于将用户输入的文本类别与网站内容结构进行自动匹配,一个网站中与某个文本类别匹配上的网站内容单元所包含的网页作为该文本类别的候选语料;语料库去噪单元,用于将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库,并对候选语料库中每个类别下的文本进行去噪处理,提高语料库的质量;输出语料库单元,用于输出去噪后的类别标准文本语料。本专利技术的技术效果是:本专利技术提出一种借助互联网自动构建文本分类语料库的方法及系统,利用互联网上各类网站上存在的类别标注信息,无需专业的人员手工标注,自适应不同用户的分类体系需求。它改变了传统的语料本文档来自技高网
...
一种借助互联网自动构建文本分类语料库的方法及系统

【技术保护点】
一种借助互联网自动构建文本分类语料库的方法,其特征在于,包括如下步骤:用户提供所需的文本类别体系:即包含一个或多个层次的文本类别树,用户可以指定或不指定所涉及的领域;网站结构与内容的采集整理:从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息;用户输入类别与网站结构的匹配:将用户输入的文本类别与网站内容结构进行自动匹配,一个网站中与某个文本类别匹配上的网站内容单元所包含的网页作为该文本类别的候选语料;语料库去噪:将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库,并对候选语料库中每个类别下的文本进行去噪处理,提高语料库的质量;输出语料库:输出去噪后的类别标准文本语料。

【技术特征摘要】
1.一种借助互联网自动构建文本分类语料库的方法,其特征在于,包括如下步骤:用户提供所需的文本类别体系:即包含一个或多个层次的文本类别树,用户可以指定或不指定所涉及的领域;网站结构与内容的采集整理:从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息;用户输入类别与网站结构的匹配:将用户输入的文本类别与网站内容结构进行自动匹配,一个网站中与某个文本类别匹配上的网站内容单元所包含的网页作为该文本类别的候选语料;语料库去噪:将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库,并对候选语料库中每个类别下的文本进行去噪处理,提高语料库的质量;输出语料库:输出去噪后的类别标准文本语料;在网站结构与内容的采集整理步骤中,对网站结构与内容的采集整理包括如下步骤:初始种子链接获取:使用门户网站和领域内的网站作为初始种子链接,或者由用户指定;网页数据爬取和存储:设置参数,参数包括并行通信数,每个站点的访问时间间隔,递归爬取深度;对上述初始种子链接进行递归抓取,同时记录页面间的跳转信息,将爬取得到的网页的源码文件存储在本地,用于后续对网页的离线分析和处理;导航栏提取:识别提取体现网站内部组织结构的导航栏;有效链接提取:统计各链接被赋予类别的次数,设置阈值,被赋予类别次数多于阈值的作为无效链接过滤掉,其余作为和页面主题相关的链接即有效链接;网页内容提取:根据非标签字符和标签数的比值来提取网页的正文。2.根据权利要求1所述的借助互联网自动构建文本分类语料库的方法,其特征在于,在导航栏提取步骤中,包括如下步骤:网页的页面分割:根据网页的DOM树将其分割成若干个块;基于规则过滤的导航栏抽取:通过制定规则对网页的各个分块进行过滤和排序来提取导航栏;基于图结构的导航栏抽取:将网页之间的链接关系组织成图结构,寻找极大连通子图,根据子图信息对页面的块结构进行过滤来提取导航栏。3.根据权利要求2所述的借助互联网自动构建文本分类语料库的方法,其特征在于,在网页的页面分割步骤中,包括如下步骤:网页DOM树构造:利用DOM解析器将网页解析成DOM树;网页DOM树化简:利用三个规则对网页DOM树进行化简。4.根据权利要求2所述的借助互联网自动构建文本分类语料库的方法,其特征在于,在基于规则过滤的导航栏抽取步骤中,包括如下步骤:网页块过滤:根据链接类型、链接唯一性、样式表、锚文本在源码中的距离、每个锚文本包含的最大词数特征对网页块进行过滤;网页剩余块排序:通过制定公式对...

【专利技术属性】
技术研发人员:陈清财张亮王丹丹王晓龙
申请(专利权)人:哈尔滨工业大学深圳研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1