网络文档信息处理方法及装置制造方法及图纸

技术编号:2831773 阅读:162 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种网络文档信息处理方法及装置,其中方法包括:根据预定义的规则集树,对从互联网上记录到的文档信息进行匹配,判断所述文档信息是否满足的所述规则集树上的规则集;对文档信息中所匹配成功的每一个规则集中的主关键字进行标识,即对所述主关键字及其在文档信息中所处的位置进行记录;在预定的关联区间内,根据标识所依据的规则集所对应的类别,对标识进行类别关联,并记录关联结果。通过本发明专利技术,由于上述网络文档信息是通过自动对主关键字的标识及类别进行关联而实现的,因此不受检索范围的限制,提高了网络文档信息采集的效率,并且准确性更高。

【技术实现步骤摘要】

本专利技术涉及网络文档信息处理方法,属于对互联网信息进行釆集、关联及 处理的技术。
技术介绍
随着互联网用户的不断增加,以及各类在线互动媒体的蓬勃发展,网络文档,如出现在电子公告栏系统(Bulletin Board System,筒称BBS)、 个人博客中的大量的网民在线言论等,越来越能体现出大众对于各种社会 现象、商业事件等的普遍看法,因此,这类网络文档逐渐受到各类商业机 构的重^L。现有基于随机采样和问巻调查方式的传统市场调研方法不适用于从在 线々某体上挖掘和分析网民意见。同时,现有面向商业的网络文档处理方法 主要有两类, 一类是由人工完成的,即由自然人对文档进行逐一阅读,然 后进行人工分类。这类方法的缺陷为文档阅读工作量巨大,效率低下, 并且容易遗漏大量文档;第二类为基于关键字的匹配分类,即由计算机程 序基于给定的关键字对文档进行查找匹配,并进行分类。此类方法的缺陷 为单纯的关键字作为分类依据会导致分类结果过于粗糙。并且无法反映 不同分类之间的从属或者关联关系。
技术实现思路
本专利技术要解决的问题是在对互联上网络文档信息的处理速度,文档覆盖 率,以及结果准确性当中寻找一个良好的平衡。 为了解决上述问题,本专利技术的 一个实施例是提供了 一种网络文档信息处理方法,包^r:根据预定义的规则集树,对从互联网上记录到的文档信息进行匹配,判 断所述文档信息是否满足的所述规则集树上的规则集;其中,所述规则集树 是指按照树状数据结构组合在一起的类别及相应的匹配规则集的树状集合, 所述匹配失见则中包含要进行匹配的主关键字;对文档信息中所匹配成功的每一个规则集中的主关键字进行标识,即对 所述主关键字及其在文档信息中所处的位置进行记录;在预定的关联区间内,根据标识所依据的规则集所对应的类别,对标 识进行类别关联,并记录关联结果。本专利技术的另 一个实施例是提供了 一种网络文档信息处理装置,包括第一才莫块,用于从互联网上采集网络文档,记录网络文档的文档信息;第二4莫块,根据预定义的规则集树,对第一模块所记录的文档信息进行 匹配;其中,所述规则集树是指按照树状数据结构组合在一起的类别及相应 的匹配规则的集合,所述匹配规则中包含要进行匹配的主关键字;第三^t块,用于对第二模块匹配到的主关键字进行标识,即对所述主 关键字及其在文档信息中所处的位置进行记录;第四;f莫块,用于在预定的关联区间内,根据由第二模块标识出的主关 键字所属的类别,对标识进行类别关联,并记录关联结杲。通过本专利技术,获得了网民在网络文档中对社会现象、商业事件等的评价及 普遍看法,由于上述网络文档信息是通过自动对主关键字的标识及类别进行 关耳关而实现的,因此不受检索范围的限制,提高了网络文档信息采集的效率, 并且准确性更高。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明图1为本专利技术实施例1中所述的网络文档信息处理方法流禾呈图;图2为本专利技术实施例1中所述的类别树凄t据的举例图;图3为本专利技术实施例1中所述的对主关键字进行标识的方法流程图;图4为本专利技术实施例2中所述的网络文档信息处理装置的结构示意图。具体实施方式 实施例1匹配规则本实施例提供了一种网络丈档信息处理方法,如图1所示,包括步骤IOI,从互联网上采集网络文档,记录每个网络文档的文档信息。 其中,网络文档是栺保存在互联网服务器上的在线文本,包括BBS讨论 组、个人博客等的文章。文档信息主要包括元信息(meta data),标题 (subject)及正文(content)。其中,元信息包括该篇网络文档的发布者 (poster)、发布日期(date of post)、发布版面(forum)和发布网站(si te)等。 步骤102,根据预定义的规则集树,对所记录的文档信息进行匹配。 其中,规则集(Ruleset)是指一组限定,只有满足此组限定,才能够认 为在文档中发现了一个类别;规则集结点(Ruleset Tree Node)是指一个特 定规则集和特定类别的捆绑;规则集树(Ruleset Tree)是指按照树状数据 结构组合在一起的一 系列匹配规则的集合,通过类别在现实世界中的从属 关系,相应规则集结点组成的一个树状结构。规则集树的每个结点都是一 个由匹配^L则所定义的类别(Category),每一个类别可以有一个专有的类 别编号。其中,类别是指对应于一个现实世界中的一个语义对象,如某个 具体产品,或者某种属性等。类别主要分为三种产品型类别,属性型类 别及评价型类别。例如,电脑属于产品型类别,质量属于属性型 类别,好,,属于评价型类别。其中,评价型类别与产品型类别和属性型 类别的不同之处在于,评价型类别不能够单独出现,它必须与具体的产品 型类别或者属性型类别相关联出现时才有实际意义。类别之间的从属关系, 由该类别所对应的结点在规则集树上的位置及上下邻关系反应。规则集树 及其结点所对应的规则集,由富有经验的研究人员建立,目的是利用已有经^^,突^C单纯的关键字而最大程度地定义类别的语义,并建立类别间的从属关系D如图2所示,为一个由于产品型类别构成的规则集树举例示意图。此 处需要说明的是,图中仅显示了该结点所对应的类别,而并未标出该结点 中的具体匹配规则。从图中可以看出,该产品型类别的规则集树是一个为Apple的产品品 牌作为根结点;其下有三个产品,移动设备、计算机和随身听作为子结点; 上述子结点之下又具有具体品牌的产品作为其子结点。例如,移动设备中包 括 iPhone品牌;计算机中包括iMac,,及iBook品牌;随身听中包 括以iPod,,及iPodNano品牌。子结点的上一级结点称为父结点,最顶 层结点称为根结点,不可以自定义,最底层结点称为叶结点。类似地,属性 型类别及评价型类别也可以根据类别中具体内容的相互关系組成相应的规则 集树。一条匹配规则包含如下元素,其中主关键字是必需的,邻近匹配规则和 里外邻近匹配规则可选。对匹配规则的匹配是指判断文档信息是否满足给定 的规则集。对一个规则集的匹配可以分解为对主关键字的匹配,对邻近规则 的匹配及对例外邻近规则的匹配。只有当三者同时都匹配成功时,才视为该 MJ'j集匹配成功。如果邻近规则或者例外邻近规则为空,则自动视其匹配成 功。以下进4亍具体i兌明1.主关键字(Keyword):主关键字是一个或者几个能够反映文档信息中文 字所属类别的最主要的特征字符串,帮助在文本中发现类别的一个或者几个 特征字符串。对主关键字的匹配是指当在文档信息中查找至少一个主关键字时,则视为对该主关4t字匹配成功;否则如果一个都没有找到,则视为主关键字匹配 失败。2. 邻近匹配规则(Nearrute):邻近匹配规则指明了主关键字周围查找必 要特征字符串的方法。邻近匹配规则的最筒表达式如L10R50(a)。该表达式仅含一个逻辑 单元,是匹配规则的最基础形式。具体地,表达式L10R50定义一个限定 区间,表示在主关健字出现处左IO个字符到向右50个字符之间的一段区间, 10和50都可以被其他正整数替代。a表示要查找的特征字符串。进一步地, 邻近匹配规则和例外匹配规则也可以是由 一 系列逻辑单元通过逻辑表达式和 :括号组合而成的复杂形式。譬如:L10R10(a) OR (L5R本文档来自技高网...

【技术保护点】
一种网络文档信息处理方法,其特征在于包括:根据预定义的规则集树,对从互联网上记录到的文档信息进行匹配,判断所述文档信息是否满足的所述规则集树上的规则集;其中,所述规则集树是指按照树状数据结构组合在一起的类别及相应的匹配规则集的树状集合,所述匹配规则中包含要进行匹配的主关键字;对文档信息中所匹配成功的每一个规则集中的主关键字进行标识,即对所述主关键字及其在文档信息中所处的位置进行记录;在预定的关联区间内,根据标识所依据的规则集所对应的类别,对标识进行类别关联,并记录关联结果。

【技术特征摘要】
1、一种网络文档信息处理方法,其特征在于包括根据预定义的规则集树,对从互联网上记录到的文档信息进行匹配,判断所述文档信息是否满足的所述规则集树上的规则集;其中,所述规则集树是指按照树状数据结构组合在一起的类别及相应的匹配规则集的树状集合,所述匹配规则中包含要进行匹配的主关键字;对文档信息中所匹配成功的每一个规则集中的主关键字进行标识,即对所述主关键字及其在文档信息中所处的位置进行记录;在预定的关联区间内,根据标识所依据的规则集所对应的类别,对标识进行类别关联,并记录关联结果。2、 根据权利要求1所述的网络文档信息处理方法,其特征在于所述文档 4言息包4舌网络文档的元信息、标题及正文。3、 才艮据;f又利要求2所述的网络文档信息处理方法,其特征在于对所述文 档信息进行匹配之前还包括根据所述文档信息中的元信息判断该文档信息是否为所需信息,是则对 规则集树进行匹配;否则结束对该文档信息的处理。4、 4艮据^又利要求3所述的网络文档信息处理方法,其特征在于对所述文 档信息进行匹配包括根据所述规则集中主关键字对所述文档信息进行匹配; 若匹配成功,则判断所述主关键字是否满足规则集中的邻近匹配规则和/ 或例外邻近匹配规则。5、 4艮据^又利要求1所述的网络文档信息处理方法,其特征在于所述对标 识进行类别关联包括将属性型标识关联到产品标识;将评价型标识关联到属性型标识。6、 根据权利要求5所述的网络文档信息处理方法,其特征在于所述记 录关联结杲之后还包括根据各个主关键字所属类别在所述规则集树中的从属关系对所述关联结 果进行归约。7...

【专利技术属性】
技术研发人员:沈佳蓉余敏玮王捷
申请(专利权)人:上海聆众商务咨询有限公司
类型:发明
国别省市:31[中国|上海]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1