一种支持用户自定义归类规则的信息归类方法技术

技术编号:12030834 阅读:83 留言:0更新日期:2015-09-10 17:33
本发明专利技术属于数据库应用领域,具体涉及一种支持用户自定义归类规则的数据库中信息归类的方法,以用户定制的归类规则为基础,支持数据库进行语句检索,得到与检索语句相近或相似的信息内容,或具有潜在关系的信息内容,本发明专利技术方法将帮助用户获取到更加全面的信息。

【技术实现步骤摘要】

本专利技术属于数据库应用领域,具体涉及一种支持用户自定义归类规则的数据库 中信息归类的方法。
技术介绍
信息归类是指为了某种目的,以一定的归类原则和方法为指导,按照信息内容、性 质以及相关的需求,将数据库信息按一定的结构体系分门别类地组织起来。 信息归类的工作原理是:第一,将信息存入数据库,同时提取出信息的关键内容, 作为归类的依据;第二,按照相关需求来定义归类规则;第三,根据归类规则,将数据库中 内容相似或相近的信息放在一起。 与"信息归类"相关的技术是信息检索技术,针对数据库,检索一般是根据用户输 入的检索关键词进行精确查找或者模糊查找,得到与检索内容相匹配的信息,并将此信息 返回给用户。 目前,不论是对数据库进行精确检索还是进行模糊检索,采用的都是基于关键词 的检索技术,这样的检索无法得到与检索内容相近、相似的相关信息内容,也无法得到与检 索内容存在潜在关系的相关信息内容。
技术实现思路
本专利技术的目的就是为了克服上述现有技术中的不足之处,提供一种支持用户自定 义归类规则的信息归类方法,支持面向语句的数据库检索,从而实现对相关或相近或具有 潜在关系的信息归类。 本专利技术是,以用户定制的归类规则 为基础,支持数据库进行语句检索,得到与检索语句相近或相似的信息内容,包括以下步 骤: (1) 信息归类规则建模,将用于信息归类时的相关规则用一张图来描述,图中的每个节 点代表一个关键词信息,包括关键词内容和关键词权重,图中的每条边代表两个关键词之 间的关系信息,包括关系内容和关系权重,具体操作中,用一个三元组,即主语、谓语、宾语 信息来表示图中的一条边,即主语和宾语两个节点之间的关系是谓语,用户通过定制上述 规则关系图来定制用于信息归类时的相关规则; (2) 基于规则的检索语句分词,通过遍历用户定制的规则关系图,得到此规则中的所有 关键词,组成关键词集,在用户输入检索语句之后,在关键词集中找出匹配的关键词,得到 分词结果; (3) 基于规则的检索关键词扩展,以经过步骤(2)分词处理后得到的分词结果中的每一 个关键词分别作为核心关键词加以处理,在用户定制的搜索层数的控制下,得到与之相近 或相关的关键词以及相关权重,最后得到扩展关键词集。此外,考虑到规则中关键词之间的 关联关系是图状拓扑结构形式,因此为了提高推理效率,需要限定关键词的扩展层数,即用 户定制的搜索层数; (4)利用扩展得到的关键词集,在数据库中进行精确检索或者模糊检索得到相应的内 容。依据规则关系图,可以扩展出与正在处理的核心关键词相关或相近的关键词,这样再 利用这些关键词进行进一步检索时,就可以得到与本次检索语句相关或相近的信息内容。 同理,依据规则关系图,可以扩展出与正在处理的核心关键词具有潜在语义关系的关键词, 利用这些关键词进行进一步检索时,就可得到与本次检索语句具有潜在语义关系的信息内 容。 本专利技术适用于各类有信息归类需求的用户,支持用户按需定制相关的信息归类规 贝1J,这样用户能够随时修改相关规则或者制定新的归类规则。本专利技术的主要步骤均是以用 户定制的归类规则为基础,一方面依据定制归类规则的不同,检索分词操作和关键词扩展 操作将得到的不同结果,这使得信息归类的效果随着规则的定制而发生变化,另一方面,用 户可根据信息归类的效果不断完善归类规则。利用本专利技术进行信息归类,所得到的归类结 果除了得到与初始检索语句直接关联的结果外,还会得到与初始检索语句相关或相似或具 有潜在关系的结果,这样将帮助用户获取到更加全面的信息。【附图说明】 图1为本专利技术基于规则的检索语句分词算法流程图。 图2为本专利技术基于规则的关键词扩展算法流程图。【具体实施方式】 本专利技术方法实施时,通过步骤1构造相关规则关系图,并将其存入数据库中。以下 以在开发机上用Java语言在eclipse开发环境下实现本专利技术方法的应用程序为例,详细说 明本专利技术技术方案。 步骤1 :信息归类规则的建模。 选择适当规则建模工具,按照用户需求建立以图的形式描述的规则。将用于信息 归类时的相关规则用一张图来描述,图中的每个节点代表一个关键词信息,包括关键词内 容和关键词权重,图中的每条边代表两个关键词之间的关系信息,包括关系内容和关系权 重,具体操作中,用一个三元组,即主语、谓语、宾语信息来表示图中的一条边,即主语和宾 语两个节点之间的关系是谓语,用户通过定制上述规则关系图来定制用于信息归类时的相 关规则。 本实施例定义了一个Web界面,供用户上传规则文件,通过解析该规则文件,将得 到的三元组信息存入数据库,方便后继步骤使用。在将解析得到的三元组信息存入数据库, 同时,通过遍历这些三元组,可得到一个用于后续步骤的的关键词集。 步骤2 :基于规则的检索语句分词。 与传统的分词程序不同之处在于,本专利技术的分词操作是基于用户定制的规则的, 因此在不同的规则上,同一个检索语句的分词结果可能会不一样。 如图1所示,基于规则的检索语句分词算法如下: 步骤一,设定当前考虑的字符串是从下标i开始的,i = 0 ; 步骤二,从i开始,截取一个长度为MaxLen的字符串CutWord ;MaxLen为规则关键 词集中关键词的最长长度; 步骤三,判断CutWord.是否是规则关键词集中的词语,如果是,将CiitWord.加入到分 词结果集,跳转至步骤五,否则转至步骤四; 步骤四,如果CutWord的长度为0,则转到步骤五,否则删除CiitWord的最后一个字 符,然后转到步骤三; 步骤五,删除匹配的部分,i值加1,如果i已经超过检索字符串长度,则程序停止,返回 分词结果集,否则转到步骤二。 上述基于规则的检索语句分词算法中的相关变量含义如表1。 表1.基于规则的检索语句分词算法中的变量步骤3 :基于规则的检索关键词扩展。 此步通过从数据库中读取三元组信息,并组成规则关系图,然后以每一个关键词 为中心,搜索出与之相关或相近的其他关键词,以及通过解析得到二者之间的关系权重和 相关的其他关键词的权重,最后将所有得到的关键词按综合权重进行排序。如图2所示,基于规则的检索关键词扩展算法如下: 步骤一,如果分词结果集为空,则跳转至步骤九,否则,从中取出一个关键词Word,并 删除,跳转至步骤二; 步骤^,清空待扩展关键词集d,把Wont丨目息加入emfd和扩展结果集 ,设置当前搜索层数j=2,转置步骤三; 步骤三,如果j超过定制的搜索层数,则跳转至步骤一,否当前第1页1 2 本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/CN104899262.html" title="一种支持用户自定义归类规则的信息归类方法原文来自X技术">支持用户自定义归类规则的信息归类方法</a>

【技术保护点】
一种支持用户自定义归类规则的信息归类方法,其特征在于该方法包括以下步骤:(1)信息归类规则建模,将用于信息归类时的相关规则用一张图来描述,图中的每个节点代表一个关键词信息,包括关键词内容和关键词权重,图中的每条边代表两个关键词之间的关系信息,包括关系内容和关系权重,具体操作中,用一个三元组,即主语、谓语、宾语信息来表示图中的一条边,即主语和宾语两个节点之间的关系是谓语,用户通过定制上述规则关系图来定制用于信息归类时的相关规则;    (2)基于规则的检索语句分词,通过遍历用户定制的规则关系图,得到此规则中的所有关键词,组成关键词集,在用户输入检索语句之后,在关键词集中找出匹配的关键词,得到分词结果;(3)基于规则的检索关键词扩展,以经过步骤(2)分词处理后得到的分词结果中的每一个关键词分别作为核心关键词加以处理,在用户定制的搜索层数的控制下,得到与之相近或相关的关键词以及相关权重,最后得到扩展关键词集;(4)利用扩展得到的关键词集,在数据库中进行精确检索或者模糊检索得到相应的内容。

【技术特征摘要】

【专利技术属性】
技术研发人员:叶俊民祝黄建叶竹君陈曙
申请(专利权)人:华中师范大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1