一种基于词汇关键度的网络论坛正文提取方法、装置制造方法及图纸

技术编号:16662951 阅读:62 留言:0更新日期:2017-11-30 12:00
本发明专利技术公开了一种面向论坛主题帖的正文筛选方法,该方法涉及数据挖掘领域,是为解决从论坛主题帖中提取正文而提出的。本算法的实现方法是从网页总体中抽取部分样本,利用去除显著的非正文部分,对剩余内容进行分词,用TF‑IDF方法评价所有词汇的关键度,定位关键度最高的若干词汇所在位置,记录出现最频繁的位置,利用该位置信息对数据集中剩余的主题帖页面进行正文提取。经实验验证,本方法具有较高的准确度和执行效率。

【技术实现步骤摘要】
一种基于词汇关键度的网络论坛正文提取方法、装置
本专利技术设计网络数据挖掘领域,具体为根据论坛主题帖内词汇的关键度,提取主题帖正文的方法、装置。
技术介绍
正文是一个论坛主题帖最重要的部分。因而提取出主题帖正文是对页面进行后续处理前最重要的准备工作。目前,对网页正文提取的方法主要有根据网页结构和文本特征进行正文提取的方法;使用布局相似性作为一句进行正文提取的方法;使用DOM节点的文本密度作为标准的正文提取方法等等。但是,在实际中,由于论坛正文的特征和论坛自身的主题紧密相关,人为指定特征缺乏客观性,又难以找到具有通用性的页面特征,上述方法均难以满足通用正文提取的需求。目前,基于词汇关键度的网络论坛正文提取方法尚未出现。
技术实现思路
为了解决现有技术的不足,本专利技术提供了一种基于词汇关键度的网络论坛正文提取方法,根据页面内有意义文本中各个词汇的关键度,选择关键词频繁出现的区域,以此指导正文提取,具有高准确度和执行效率。本专利技术采用的技术方案为:一种基于词汇关键度的网络论坛正文提取方法,包括:抽取数据集中部分主题帖页面样本,去除非正文部分,对剩余内容进行分词,计算所有词汇的关键度,定位关本文档来自技高网...
一种基于词汇关键度的网络论坛正文提取方法、装置

【技术保护点】
一种基于词汇关键度的网络论坛正文提取方法,其特征在于,包括:抽取数据集中部分主题帖页面样本,去除非正文部分,对剩余内容进行分词,计算所有词汇的关键度,定位关键度最高的部分词汇所在位置,引导提取数据集中剩余主题帖页面的正文,若正文内容正确则输出正文,若不正确,则从抽取数据集中部分主题帖页面样本开始重新处理。

【技术特征摘要】
1.一种基于词汇关键度的网络论坛正文提取方法,其特征在于,包括:抽取数据集中部分主题帖页面样本,去除非正文部分,对剩余内容进行分词,计算所有词汇的关键度,定位关键度最高的部分词汇所在位置,引导提取数据集中剩余主题帖页面的正文,若正文内容正确则输出正文,若不正确,则从抽取数据集中部分主题帖页面样本开始重新处理。2.根据权利要求1所述的方法,其特征在于,所述去除非正文部分包括:去除主题帖页面中显著的非正文内容;根据停用词库排除主题帖页面中无关内容;根据相似规则去除主题帖页面中不应被包含在正文中的内容。3.根据权利要求2所述的方法,其特征在于,去除主题帖页面中显著的非正文内容包括:去除主题帖页面源码中的标签及其内容,所述标签至少包括:<head>、<script>和<a>。4.根据权利要求2所述的方法,其特征在于,根据停用词库排除主题帖页面中无关内容包括:根据停用词库,将出现停用词的整行文本去除;或者根据停用词库与待测文本比对以决定是否保留该段待测文本。5.根据权利要求2所述的方法,其特征在于,根据相似规则去除主题帖页面中不应被包含在正文中的内容包括:比对两段待测文本的若干起始字符,判断是否保留这两段文本;或者根据相似规则去除由程序生成的不应包含在正文中的内容。6.根据权利要求1所述的方法,其特征在于,采用TF-IDF方法计算所有自会的关键度。7.根据权利要求1所述的方法,其特征在于,所述定位关键...

【专利技术属性】
技术研发人员:王红刘锐
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1