网络文档信息处理方法及装置制造方法及图纸

技术编号：2831773 阅读：162 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种网络文档信息处理方法及装置，其中方法包括：根据预定义的规则集树，对从互联网上记录到的文档信息进行匹配，判断所述文档信息是否满足的所述规则集树上的规则集；对文档信息中所匹配成功的每一个规则集中的主关键字进行标识，即对所述主关键字及其在文档信息中所处的位置进行记录；在预定的关联区间内，根据标识所依据的规则集所对应的类别，对标识进行类别关联，并记录关联结果。通过本发明专利技术，由于上述网络文档信息是通过自动对主关键字的标识及类别进行关联而实现的，因此不受检索范围的限制，提高了网络文档信息采集的效率，并且准确性更高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络文档信息处理方法，属于对互联网信息进行釆集、关联及处理的技术。
技术介绍
随着互联网用户的不断增加，以及各类在线互动媒体的蓬勃发展，网络文档，如出现在电子公告栏系统(Bulletin Board System,筒称BBS)、个人博客中的大量的网民在线言论等，越来越能体现出大众对于各种社会现象、商业事件等的普遍看法，因此，这类网络文档逐渐受到各类商业机构的重^L。现有基于随机采样和问巻调查方式的传统市场调研方法不适用于从在线々某体上挖掘和分析网民意见。同时，现有面向商业的网络文档处理方法主要有两类，一类是由人工完成的，即由自然人对文档进行逐一阅读，然后进行人工分类。这类方法的缺陷为文档阅读工作量巨大，效率低下，并且容易遗漏大量文档；第二类为基于关键字的匹配分类，即由计算机程序基于给定的关键字对文档进行查找匹配，并进行分类。此类方法的缺陷为单纯的关键字作为分类依据会导致分类结果过于粗糙。并且无法反映不同分类之间的从属或者关联关系。
技术实现思路
本专利技术要解决的问题是在对互联上网络文档信息的处理速度，文档覆盖率，以及结果准确性当中寻找一个良好的平衡。为了解决上述问题，本专利技术的一个实施例是提供了一种网络文档信息处理方法，包^r:根据预定义的规则集树，对从互联网上记录到的文档信息进行匹配，判断所述文档信息是否满足的所述规则集树上的规则集；其中，所述规则集树是指按照树状数据结构组合在一起的类别及相应的匹配规则集的树状集合，所述匹配失见则中包含要进行匹配的主关键字；对文档信息中所匹配成功的每一个规则集中的主关...

【技术保护点】
一种网络文档信息处理方法，其特征在于包括：根据预定义的规则集树，对从互联网上记录到的文档信息进行匹配，判断所述文档信息是否满足的所述规则集树上的规则集；其中，所述规则集树是指按照树状数据结构组合在一起的类别及相应的匹配规则集的树状集合，所述匹配规则中包含要进行匹配的主关键字；对文档信息中所匹配成功的每一个规则集中的主关键字进行标识，即对所述主关键字及其在文档信息中所处的位置进行记录；在预定的关联区间内，根据标识所依据的规则集所对应的类别，对标识进行类别关联，并记录关联结果。

【技术特征摘要】
1、一种网络文档信息处理方法，其特征在于包括根据预定义的规则集树，对从互联网上记录到的文档信息进行匹配，判断所述文档信息是否满足的所述规则集树上的规则集；其中，所述规则集树是指按照树状数据结构组合在一起的类别及相应的匹配规则集的树状集合，所述匹配规则中包含要进行匹配的主关键字；对文档信息中所匹配成功的每一个规则集中的主关键字进行标识，即对所述主关键字及其在文档信息中所处的位置进行记录；在预定的关联区间内，根据标识所依据的规则集所对应的类别，对标识进行类别关联，并记录关联结果。2、根据权利要求1所述的网络文档信息处理方法，其特征在于所述文档 4言息包4舌网络文档的元信息、标题及正文。3、才艮据;f又利要求2所述的网络文档信息处理方法，其特征在于对所述文档信息进行匹配之前还包括根据所述文档信息中的元信息判断该文档信息是否为所需信息，是则对规则集树进行匹配；否则结束对该文档信息的处理。4、 4艮据^又利要求3所述的网络文档信息处理方法，其特征在于对所述文档信息进行匹配包括根据所述规则集中主关键字对所述文档信息进行匹配；若匹配成功，则判断所述主关键字是否满足规则集中的邻近匹配规则和/ 或例外邻近匹配规则。5、 4艮据^又利要求1所述的网络文档信息处理方法，其特征在于所述对标识进行类别关联包括将属性型标识关联到产品标识；将评价型标识关联到属性型标识。6、根据权利要求5所述的网络文档信息处理方法，其特征在于所述记录关联结杲之后还包括根据各个主关键字所属类别在所述规则集树中的从属关系对所述关联结果进行归约。7...

【专利技术属性】
技术研发人员：沈佳蓉，余敏玮，王捷，
申请(专利权)人：上海聆众商务咨询有限公司，
类型：发明
国别省市：31[中国|上海]

全部详细技术资料下载我是这个专利的主人