基于块、模式识别及行文本的通用论坛正文提取算法制造技术

技术编号：16644711 阅读：219 留言：0更新日期：2017-11-26 17:09

论坛的文本提取，通过解析论坛的html文件获得论坛中的核心内容，从其中提取出来的文本信息对商业决策，舆论分析以及社会调查都具有重大的意义。其中这个技术有两个重要的步骤，html文本的去噪以及核心内容的识别和提取，html文本的去噪需要将html文本中无用的信息片段去除，核心内容的识别和提取实现则会依据作者设计的方法出现很大的差异。在本发明专利技术中，主要对核心内容的识别提取方面提出一种基于块、模式识别以及行文本的通用论坛提取方法，通过机器学习实现模式的自我更新以及对论坛html文件的分块来更加准确地提取出论坛文本的核心内容，并且使得本方法在面对多种方法实现的论坛时也具有通用性，避免了对不同论坛需要设计不同方法来提取带来的繁琐。

General forum text extraction algorithm based on block, pattern recognition and line text

The text extraction of the forum, through the analysis of the forum HTML file access to the core content of the forum, from which the extracted text information for business decision-making, public opinion analysis and social investigation are of great significance. The technology has two important steps to identify and extract the denoising and the core content of the HTML text, HTML text denoising will need to remove useless pieces of information in the HTML text, identification and extraction of the core content of the implementation will be based on the method designed by the author appear very different. In the invention, mainly to identify the core content of the extraction of a block, pattern recognition and universal forum text line extraction method based on machine learning, realize mode through self-renewal and block of forum HTML files to more accurately extract the core content of the forum text, and the method also has general in the face of a variety of methods to achieve the forum, avoiding the need to extract the trouble brought by different methods on different design forum.

全部详细技术资料下载

【技术实现步骤摘要】
基于块、模式识别及行文本的通用论坛正文提取算法
本专利技术涉及一种论坛文本的提取，特别涉及一种通用的论坛文本提取。
技术介绍
模式识别：模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释的过程。论坛文本提取：论坛文本提取指的是去除网页中的冗余部分，只对论坛中最核心的内容进行提取，其中包括发帖者和回复者的所发的个人信息、文字内容、以及内容发表的时间。现有的论坛文本提取技术只能针对某个特定的网页进行提取。最小编辑距离：其目的是找出两个字符串之间需要改动多少个字符后变成一致。该方法使用了动态规划的算法策略，该问题具备最优子结构，最小编辑距离包含子最小编辑距离，有下列的公式：d[i，j]：表示字符串X[0，1，2，3，i]与字符串X[0，1，2，3，j]之间的距离xi：表示字符串X[0，1，2，3，i]中的第i个元素xj：表示字符串X[0，1，2，3，i]中的第j个元素
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足，提供一种基于块、模式识别以及行文本的通用论坛提取方法。通过处理后的html文本匹配生成一个模式库，然后依据时间对网页进行分块并在块中利用模式对文本进行提取，同时模式是可以利用现有模式生成新的模式来达到高正确率的效果，因此这种算法具有通用性以及自我学习的特点。使用时间以及行文本密度对网页进行分块对论坛的html文件进行分块，利用html文本匹配生成模式对分块正文内容进行提取。模式可以在匹配的过程中进行自我更新。本专利技术克服了传统论坛文本提取方法不具通用性或通用性极...
基于块、模式识别及行文本的通用论坛正文提取算法

【技术保护点】
一种基于块、模式识别以及行文本的通用论坛提取方法，其特征在于：通过处理后的html文本匹配生成一个模式库，然后依据时间对网页进行分块并在块中利用模式对文本进行提取。

【技术特征摘要】
1.一种基于块、模式识别以及行文本的通用论坛提取方法，其特征在于：通过处理后的html文本匹配生成一个模式库，然后依据时间对网页进行分块并在块中利用模式对文本进行提取。2.根据权利要求1所述的方法，其特征在于：提出了使用时间以及行文本密度对网页进行分块对论坛的html文件进行分块。3.根据权利要求1所述的方法，其特征在于：利用html文本匹配生成模式对分块正文内容进行提取。4.根据权利要求1所述的方法，其特征在于：模式可在匹配的过程中进行自我更新。5.根据权利要求1所述的方法，其特征在于：具体步骤为：第一步：利用正则表达式去掉所有的网页标签，脚本函数以及空行；第二步：根据已经提供的目标数据，不断进行模式匹配，找出目标字段的前面和后面的文本，找出的前后字符串就是该目...

【专利技术属性】
技术研发人员：龙鑫，武继刚，杨哲，左超，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人