基于块、模式识别及行文本的通用论坛正文提取算法制造技术

技术编号:16644711 阅读:219 留言:0更新日期:2017-11-26 17:09
论坛的文本提取,通过解析论坛的html文件获得论坛中的核心内容,从其中提取出来的文本信息对商业决策,舆论分析以及社会调查都具有重大的意义。其中这个技术有两个重要的步骤,html文本的去噪以及核心内容的识别和提取,html文本的去噪需要将html文本中无用的信息片段去除,核心内容的识别和提取实现则会依据作者设计的方法出现很大的差异。在本发明专利技术中,主要对核心内容的识别提取方面提出一种基于块、模式识别以及行文本的通用论坛提取方法,通过机器学习实现模式的自我更新以及对论坛html文件的分块来更加准确地提取出论坛文本的核心内容,并且使得本方法在面对多种方法实现的论坛时也具有通用性,避免了对不同论坛需要设计不同方法来提取带来的繁琐。

General forum text extraction algorithm based on block, pattern recognition and line text

The text extraction of the forum, through the analysis of the forum HTML file access to the core content of the forum, from which the extracted text information for business decision-making, public opinion analysis and social investigation are of great significance. The technology has two important steps to identify and extract the denoising and the core content of the HTML text, HTML text denoising will need to remove useless pieces of information in the HTML text, identification and extraction of the core content of the implementation will be based on the method designed by the author appear very different. In the invention, mainly to identify the core content of the extraction of a block, pattern recognition and universal forum text line extraction method based on machine learning, realize mode through self-renewal and block of forum HTML files to more accurately extract the core content of the forum text, and the method also has general in the face of a variety of methods to achieve the forum, avoiding the need to extract the trouble brought by different methods on different design forum.

【技术实现步骤摘要】
基于块、模式识别及行文本的通用论坛正文提取算法
本专利技术涉及一种论坛文本的提取,特别涉及一种通用的论坛文本提取。
技术介绍
模式识别:模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。论坛文本提取:论坛文本提取指的是去除网页中的冗余部分,只对论坛中最核心的内容进行提取,其中包括发帖者和回复者的所发的个人信息、文字内容、以及内容发表的时间。现有的论坛文本提取技术只能针对某个特定的网页进行提取。最小编辑距离:其目的是找出两个字符串之间需要改动多少个字符后变成一致。该方法使用了动态规划的算法策略,该问题具备最优子结构,最小编辑距离包含子最小编辑距离,有下列的公式:d[i,j]:表示字符串X[0,1,2,3,i]与字符串X[0,1,2,3,j]之间的距离xi:表示字符串X[0,1,2,3,i]中的第i个元素xj:表示字符串X[0,1,2,3,i]中的第j个元素
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种基于块、模式识别以及行文本的通用论坛提取方法。通过处理后的html文本匹配生成一个模式库,然后依据时间对网页进行分块并在块中利用模式对文本进行提取,同时模式是可以利用现有模式生成新的模式来达到高正确率的效果,因此这种算法具有通用性以及自我学习的特点。使用时间以及行文本密度对网页进行分块对论坛的html文件进行分块,利用html文本匹配生成模式对分块正文内容进行提取。模式可以在匹配的过程中进行自我更新。本专利技术克服了传统论坛文本提取方法不具通用性或通用性极低的缺点,本专利技术的通用性使得无需针对不同论坛的而设计不同的方法进行内容的提取。而且克服了传统基于dom树通用提取文本方法处理速度慢的问题。论坛文本提取的通用性提升了了10%~30%;性能相对传统文本的提取提升了约20%。附图说明图1方法流程图。具体实施方式下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。基于块,模式识别以及行文本的通用论坛提取方法,如图1所示,具体包括如下步骤:第一步:利用正则表达式去掉所有的网页标签,脚本函数以及空行。第二步:根据已经提供的目标数据,不断进行模式匹配,找出目标字段的前面和后面的文本,找出的前后字符串就是该目标字段的模式。第三步:保存模式以及目标网站url到文件中。第四步:根据输入的url匹配到模式库中最小编辑距离最短的url,同时找到这种模式。第五步:根据时间以及行文本密度进行分块,并根据模式提取论坛网页中的正文,同时找到日期。第六步:判断每个块中的正文内容,发表作者是否为空,如果两项一项为空,则为错误,计算总的错误率。第七步:如果错误率高于用户输入的阈值,回到模式库中,找到模式库中海明距离仅短于上一个模式的url。回到第四步。如果重新匹配次数等于四次,执行第八步。如果重新匹配次数少于四次,回到第九步。第八步:对前四次模式的不同目标字段的子模式的错误率进行排序,分别选取错误率最低的子模式生成一个新的模式,url为输入url。回到第四步。第九步:输出提取正文信息到文件。生成的模式库可保存在一个文件当中,利用python以及urllib、re、jsonLevenshtein、http库按照算法流程图一步一步编写即可。上述实施例为本专利技术较佳的实施方式,但本专利技术的实施方式并不受上述实施例的限制,其他的任何未背离本专利技术的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本专利技术的保护范围之内。本文档来自技高网...
基于块、模式识别及行文本的通用论坛正文提取算法

【技术保护点】
一种基于块、模式识别以及行文本的通用论坛提取方法,其特征在于:通过处理后的html文本匹配生成一个模式库,然后依据时间对网页进行分块并在块中利用模式对文本进行提取。

【技术特征摘要】
1.一种基于块、模式识别以及行文本的通用论坛提取方法,其特征在于:通过处理后的html文本匹配生成一个模式库,然后依据时间对网页进行分块并在块中利用模式对文本进行提取。2.根据权利要求1所述的方法,其特征在于:提出了使用时间以及行文本密度对网页进行分块对论坛的html文件进行分块。3.根据权利要求1所述的方法,其特征在于:利用html文本匹配生成模式对分块正文内容进行提取。4.根据权利要求1所述的方法,其特征在于:模式可在匹配的过程中进行自我更新。5.根据权利要求1所述的方法,其特征在于:具体步骤为:第一步:利用正则表达式去掉所有的网页标签,脚本函数以及空行;第二步:根据已经提供的目标数据,不断进行模式匹配,找出目标字段的前面和后面的文本,找出的前后字符串就是该目...

【专利技术属性】
技术研发人员:龙鑫武继刚杨哲左超
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1