The text extraction of the forum, through the analysis of the forum HTML file access to the core content of the forum, from which the extracted text information for business decision-making, public opinion analysis and social investigation are of great significance. The technology has two important steps to identify and extract the denoising and the core content of the HTML text, HTML text denoising will need to remove useless pieces of information in the HTML text, identification and extraction of the core content of the implementation will be based on the method designed by the author appear very different. In the invention, mainly to identify the core content of the extraction of a block, pattern recognition and universal forum text line extraction method based on machine learning, realize mode through self-renewal and block of forum HTML files to more accurately extract the core content of the forum text, and the method also has general in the face of a variety of methods to achieve the forum, avoiding the need to extract the trouble brought by different methods on different design forum.
【技术实现步骤摘要】
基于块、模式识别及行文本的通用论坛正文提取算法
本专利技术涉及一种论坛文本的提取,特别涉及一种通用的论坛文本提取。
技术介绍
模式识别:模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。论坛文本提取:论坛文本提取指的是去除网页中的冗余部分,只对论坛中最核心的内容进行提取,其中包括发帖者和回复者的所发的个人信息、文字内容、以及内容发表的时间。现有的论坛文本提取技术只能针对某个特定的网页进行提取。最小编辑距离:其目的是找出两个字符串之间需要改动多少个字符后变成一致。该方法使用了动态规划的算法策略,该问题具备最优子结构,最小编辑距离包含子最小编辑距离,有下列的公式:d[i,j]:表示字符串X[0,1,2,3,i]与字符串X[0,1,2,3,j]之间的距离xi:表示字符串X[0,1,2,3,i]中的第i个元素xj:表示字符串X[0,1,2,3,i]中的第j个元素
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种基于块、模式识别以及行文本的通用论坛提取方法。通过处理后的html文本匹配生成一个模式库,然后依据时间对网页进行分块并在块中利用模式对文本进行提取,同时模式是可以利用现有模式生成新的模式来达到高正确率的效果,因此这种算法具有通用性以及自我学习的特点。使用时间以及行文本密度对网页进行分块对论坛的html文件进行分块,利用html文本匹配生成模式对分块正文内容进行提取。模式可以在匹配的过程中进行自我更新。本专利技术克服了传统论坛文本提取方法不具通用性或通用性极 ...
【技术保护点】
一种基于块、模式识别以及行文本的通用论坛提取方法,其特征在于:通过处理后的html文本匹配生成一个模式库,然后依据时间对网页进行分块并在块中利用模式对文本进行提取。
【技术特征摘要】
1.一种基于块、模式识别以及行文本的通用论坛提取方法,其特征在于:通过处理后的html文本匹配生成一个模式库,然后依据时间对网页进行分块并在块中利用模式对文本进行提取。2.根据权利要求1所述的方法,其特征在于:提出了使用时间以及行文本密度对网页进行分块对论坛的html文件进行分块。3.根据权利要求1所述的方法,其特征在于:利用html文本匹配生成模式对分块正文内容进行提取。4.根据权利要求1所述的方法,其特征在于:模式可在匹配的过程中进行自我更新。5.根据权利要求1所述的方法,其特征在于:具体步骤为:第一步:利用正则表达式去掉所有的网页标签,脚本函数以及空行;第二步:根据已经提供的目标数据,不断进行模式匹配,找出目标字段的前面和后面的文本,找出的前后字符串就是该目...
【专利技术属性】
技术研发人员:龙鑫,武继刚,杨哲,左超,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。