一种网页标题提取方法及装置制造方法及图纸

技术编号：8959472 阅读：177 留言：0更新日期：2013-07-25 19:01

本发明专利技术公开了一种网页标题提取方法及装置。该方法包括：构造训练集，将训练集中的每个网页解析为文本块及其属性值的序列，标注这些文本块的类别，将属性值序列和对应的类别处理成分类器能够识别的第一属性向量；利用训练集训练分类器；将需要处理的网页解析为多个文本块及其属性值的序列，将这些属性值的序列处理成分类器能够识别的第二属性向量；利用分类器根据训练结果将所述第二属性向量分类，鉴别出该第二属性向量是否为标题类别，得到类别为标题的文本块及其属性值序列的集合。本发明专利技术能够从没有“title”标签或者该标签内为空或难以总结普适性规则的网页集合提取标题，并且准确性高、扩展性好。

全部详细技术资料下载

【技术实现步骤摘要】
一种网页标题提取方法及装置
本专利技术涉及一种网页信息提取技术，具体地说，是一种网页标题提取方法及装置。
技术介绍
网页标题是对一个网页内容的高度概括，如同一篇文章的标题之于文章。对于网页的浏览者来说，网页标题的内容很大度上决定了浏览者是否会浏览一个网页。所以目前的主流搜索引擎如百度和谷歌的算法中网页的标题都有着最高的页面级权重，因此提取网页的标题是十分必要的。目前来说，对于网页的标题的提取方法有以下几类：1.使用网页的解析技术，提取特定标签里面的内容。例如，HTML有一个名为“title”的标签，该标签的作用就在于指明一个网页的标题。然而，使用此方法获取标题有很明显的缺陷，如果网页的编写者并没有将正确标题写入该域，或者甚至没有“title”这个标签，那么用这种方法是提取不到正确标题的。实际上，出于各种原因，许多网页的编写者并没有按照规范的格式编写网页，导致大量的网页都不能用这种方法提取到正确的标题。2.根据规则的方法提取标题。由于某些系统或子系统的网页排版及格式通常是一定的。例如，对于某个系统的新闻版面，我们曾得到这样的规则，标题的后面紧跟的是这样的文字“发布日期[xxxx-xx-xx]”(每个x是0-9的数字)，于是，我们就能用这样的规则把这个新闻版面的部分网页标题抽取出来。然而，这个方法的缺陷也很明显，即扩展性太差，准确率不高。扩展性差是因为对于新的格式的网页，这个方法不能有效工作；准确率不高是因为这一规则是根据这些网页总结出来的，它可能适用于该系统或子系统大部分的网页，而准确率取决于该规则适用网页所占总网页的比率。
技术实现思路
本专利技术要解决的技术...
一种网页标题提取方法及装置

【技术保护点】
一种网页标题提取方法，其特征在于，包括：构造训练集，将训练集中的每个网页解析为文本块及其属性值的序列，标注这些文本块的类别，将属性值序列和对应的类别处理成分类器能够识别的第一属性向量；利用训练集训练分类器；将需要处理的网页解析为多个文本块及其属性值的序列，将这些属性值的序列处理成分类器能够识别的第二属性向量；利用分类器根据训练结果将所述第二属性向量分类，鉴别出该第二属性向量是否为标题类别，得到类别为标题的文本块及其属性值序列的集合。

【技术特征摘要】
1.一种网页标题提取方法，其特征在于，包括：构造训练集，将训练集中的每个网页解析为文本块及其属性值的序列，标注这些文本块的类别，将属性值序列和对应的类别处理成分类器能够识别的第一属性向量；利用训练集训练分类器；将需要处理的网页解析为多个文本块及其属性值的序列，将这些属性值的序列处理成分类器能够识别的第二属性向量；利用分类器根据训练结果将所述第二属性向量分类，鉴别出该第二属性向量是否为标题类别，得到类别为标题的文本块及其属性值序列的集合；按照属性向量的种类选择正确率最高的分类器进行分类，具体方法为：根据定义的属性值序列构造属性树，使每种属性值序列对应于一个叶子节点；对训练集预测，获得各分类器在各种属性值的正确率，记录在属性树上；对需要预测的属性值序列在属性树上查找预测准确率最高的分类器，用该分类器对其分类；根据定义的属性值序列构造属性树时，如果某个属性值不是离散的而是连续的，对该属性值进行离散化处理；对所述类别为标题的文本块及其属性值序列的集合中的文本块或属性值序列进行二次鉴别，得出最终的网页标题。2.根据权利要求1所述的网页标题提取方法，其特征在于，所述利用分类器根据训练结果将所述第二属性向量分类时，采用K近邻分类法、决策树分类法、贝叶斯分类法或支持向量机分类法分类。3.一种网页标题提取装置，其特征在于，包括：网页解析模块...

【专利技术属性】
技术研发人员：刘桂林，王呈祥，李勋，李振钊，赵威，刘秀磊，
申请(专利权)人：北京鹏宇成软件技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人