一种基于搜索引擎的主题语料构建方法及系统技术方案

技术编号：21454036 阅读：25 留言：0更新日期：2019-06-26 04:48

本发明专利技术涉及一种基于搜索引擎的主题语料构建方法及系统。该方法包括以下步骤：1)利用搜索引擎获取主题相关的种子网页；2)对种子网页进行扩展以发现列表页；3)对列表页进行判断，得到与主题真正相关的列表页；4)对与主题真正相关的列表页中的链接进行抽取，并对链接进行下载得到原始网页；5)对原始网页进行正文抽取，形成最终的主题语料。该系统包括：种子网页获取单元、列表页发现单元、列表页审核单元、网页下载单元和正文抽取单元。与现有技术相比，构建同等规模主题语料本发明专利技术所需的人工标注量大幅减少，并且对各类主题语料构建都有较好的适用性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于搜索引擎的主题语料构建方法及系统
本专利技术涉及语料自动构建以及基于统计机器学习的主题分类，尤其适用于主题分类缺少训练语料的问题。
技术介绍
随着人工智能的发展，文本分类在各个领域得到了广泛应用。典型分类需求包括主题分类以及情感分类等。其中，主题分类根据文档讲述的内容主题进行类别划分，从计算机的输入输出来看，输入是文档，输出是主题类别。当前，文本分类主要使用基于机器学习的分类方法。基于机器学习的文本分类方法需要有训练数据，即对每个主题类别，都要有一批和该类别相关的文本文档。这些用于构造主题分类模型的数据集也被称作主题分类语料，主题分类语料是构建主题分类模型的基础。现有主题分类语料构建往往基于人工标注。在学术界，研究人员一般采用半自动的方法收集整理互联网数据形成分类语料，构建语料的方法主要采用启发式的规则，没有统一方法。在工业界，网页分类一般使用ODP(https://en.wikipedia.org/wiki/DMOZ)项目提供的标注语料。ODP是一个开源项目，该项目包括一个类别体系(约有100多万类别)以及相关的类别文档，类别文档由广大网民人工标注提供。然而ODP的标注语料在应用中存在3个问题：一是ODP覆盖的网页大部分为英文网页；二是实际应用存在很多未定义的类别(新类)；三是ODP的标记文档数量不能满足需求。
技术实现思路
针对上述问题，本专利技术提出一种通用的基于搜索引擎的主题语料构建方法及系统。本专利技术的主要思想是借助搜索引擎发现相关网站，在网站内寻找列表页(hub)，对列表页进行人工审核获得相关列表页，对相关列表页进行自动翻页、下载列表中的...

【技术保护点】
1.一种基于搜索引擎的主题语料构建方法，其特征在于，包括以下步骤：1)利用搜索引擎获取主题相关的种子网页；2)对种子网页进行扩展以发现列表页；3)对列表页进行判断，得到与主题真正相关的列表页；4)对与主题真正相关的列表页中的链接进行抽取，并对链接进行下载得到原始网页；5)对原始网页进行正文抽取，形成最终的主题语料。

【技术特征摘要】
1.一种基于搜索引擎的主题语料构建方法，其特征在于，包括以下步骤：1)利用搜索引擎获取主题相关的种子网页；2)对种子网页进行扩展以发现列表页；3)对列表页进行判断，得到与主题真正相关的列表页；4)对与主题真正相关的列表页中的链接进行抽取，并对链接进行下载得到原始网页；5)对原始网页进行正文抽取，形成最终的主题语料。2.根据权利要求1所述的方法，其特征在于，步骤1)包括：1.1)将主题词转换为搜索引擎的查询词；1.2)将查询词发送到搜索引擎，获取搜索引擎的查询结果，即相关链接，并对相关链接进行二次采集，获得网页原始内容即种子网页。3.根据权利要求2所述的方法，其特征在于，步骤1.1)使用基于知识库的方法、基于反馈的方法或者人工方法进行查询转换。4.根据权利要求1所述的方法，其特征在于，步骤2)包括：2.1)对所述种子网页进行解析，抽取其中包含的站内链接，并对链接进行下载；2.2)对下载的网页进行判别，挑选其中的列表页。5.根据权利要求1所述的方法，其特征在于，步骤3)包括：3.1)对列表页的质量进行评估，根据质量得分对页面进行过滤、排序操作；3.2)通过人工对列表页的相关性进行最终确认。6.一种基于搜索引擎的主题语料构建系统，其特征在于，包括：种子网页获取单元，用于利用搜索引擎获取主题相关...

【专利技术属性】
技术研发人员：李鹏，王斌，周美林，齐保元，梅钰，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人