一种基于规则和语义的通用论坛主题帖页面信息抽取方法技术

技术编号：18204252 阅读：35 留言：0更新日期：2018-06-13 06:20

本发明专利技术提供一种基于规则和语义的通用论坛主题帖页面信息抽取方法，用于对主题帖标题，作者，发帖时间和正文的提取，本发明专利技术抽取方法满足当今主流论坛的网页结构，克服传统爬虫需要针对不同网站分别设计而耗费的人工成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于规则和语义的通用论坛主题帖页面信息抽取方法
本专利技术属于文本信息处理领域，具体是涉及一种基于规则和语义的通用论坛主题帖页面信息抽取方法。
技术介绍
论坛的主题帖信息具有十分重要的价值。主题帖提供的信息远远大于论坛其他文本。数据分析师可以从海量论坛的主题帖中挖掘知识，分析网民的关注热点。论坛的页面信息采集一般通过网络信息采集器(也称网络爬虫)进行采集。采集到的页面一般利用Xpath，正则表达式，HTML解析等信息抽取规则进行匹配，进而抽取出论坛页面上的标题、正文、时间、作者等主贴信息。但是由于各个论坛的网页结构不同，一般需要对不同论坛设计不同的信息抽取规则，需要花费大量的人工成本。本专利技术针对网络论坛的主题帖页面，基于规则和语义信息，结合正则表达式技术，提出并实现了一个自动获取主题帖信息的信息抽取方法和系统。此方法可以满足对论坛主贴信息的文本过滤和抽取，经过测试，可以获取超过50个不同类型的论坛信息，节省了人工设计成本，并保证准确率在合理的范围内。
技术实现思路
本专利技术通过对比论坛结构和文本的共性，提供一种基于规则和语义的通用论坛主题帖页面信息抽取方法，用于对主题帖标题、作者、发帖时间和正文的抽取，该方法满足当今主流论坛的网页结构，克服传统爬虫需要针对不同网站分别设计而耗费的人工成本。为实现上述目的，本专利技术采用如下的技术方案：一种基于规则和语义的通用论坛主题帖页面信息抽取方法，包括以下步骤：步骤(1)主题帖形式化表示建立二元组B＝(T，S)，T表示主题帖，S表示帖子结构，T＝(T1，T2，T3，T4)，T1为标题，T2为发帖时间，T3为作者，...

【技术保护点】
一种基于规则和语义的通用论坛主题帖页面信息抽取方法，其特征在于，包括以下步骤：步骤(1)主题帖形式化表示建立二元组B＝(T,S)，T表示主题帖，S表示帖子结构，T＝(T1,T2,T3,T4)，T1为标题，T2为发帖时间，T3为作者，T4为正文；S＝(S1,S2)，S1为由上至下结构，S2为由左至右的帖子结构；步骤(2)定义文本特征和语义词典步骤(2.1)获取论坛页面源码及文本针对每个帖子获取其全部源码记为H；通过正则表达式过滤全部标签只保留文本，将过滤后只含有文本的源代码记为H’，每个网页记为一个二元组(H，H’)，web上所有论坛的主题帖即为：Page＝((H1,H′1)，(H2,H′2)…(Hn,H′n))步骤(2.2)计算文本间距离获取一个H′中所有文本，文本之间的两两距离计算公式如下：Dist(a,b)＝Index(a)‑Index(b)其中，a，b是两种文本，Index(*)是文本首字索引，步骤(2.3)计算URL相似性获取一个H中所有URL，URL之间的两两相似性计算方法如下：Sim(a,b)＝len(MaxStr(a,b))其中a，b是两种类型文本，MaxStr(a,b)...

【技术特征摘要】
1.一种基于规则和语义的通用论坛主题帖页面信息抽取方法，其特征在于，包括以下步骤：步骤(1)主题帖形式化表示建立二元组B＝(T,S)，T表示主题帖，S表示帖子结构，T＝(T1,T2,T3,T4)，T1为标题，T2为发帖时间，T3为作者，T4为正文；S＝(S1,S2)，S1为由上至下结构，S2为由左至右的帖子结构；步骤(2)定义文本特征和语义词典步骤(2.1)获取论坛页面源码及文本针对每个帖子获取其全部源码记为H；通过正则表达式过滤全部标签只保留文本，将过滤后只含有文本的源代码记为H’，每个网页记为一个二元组(H，H’)，web上所有论坛的主题帖即为：Page＝((H1,H′1)，(H2,H′2)…(Hn,H′n))步骤(2.2)计算文本间距离获取一个H′中所有文本，文本之间的两两距离计算公式如下：Dist(a,b)＝Index(a)-Index(b)其中，a，b是两种文本，Index(*)是文本首字索引，步骤(2.3)计算URL相似性获取一个H中所有URL，URL之间的两两相似性计算方法如下：Sim(a,b)＝len(MaxStr(a,b))其中a，b是两种类型文本，MaxStr(a,b)是指a,b的最大公共子串，若Sim>M则认为a,b具有相似性，否则不具有相似性，M为相似性阈值，步骤(2.4)构建噪声词典1、获取相同论坛的不同帖子J个，对这J个H′的每一行进行词频/句频统计。取词/句频最高的P个词/句构成噪声集，P为频数阈值,2、H中含有超链接且长度小于K的文本加入噪声集，K为文本长度阈值，该集合定义为NF，每类论坛有且仅有一个NF集。步骤(2.5)构建指示词典初始化指示词典：将初始的指示词典定义为空集，该集合定义为F，F的结构如下所示：F＝{T1:*,T2:*,T3:*,T4:*}每个论坛有且仅有一个F集，步骤(3)提取标题(T1)、时间(T2)、作者(T3)步骤(3.1)提取标题(T1)，其规则如下：规则1：根据指示词典获取标题规则2：根据Dom源码获取标题规则3：根据过滤噪声获取标题步骤(3.2)获取时间(T2)，其规则如下：规则1：根据指示词典获取时间，规则2：根据正则表达式获取时间，步骤(3.3)获取作者(T3)，其规则如下：规则1：根据指示词典获取作者，规则2：根据Dom源码及正则表达式获取作者，...

【专利技术属性】
技术研发人员：刘磊，孙孟涛，徐文扬，陈天琪，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人