一种网络信息分类体系构建方法技术

技术编号:20566666 阅读:77 留言:0更新日期:2019-03-14 09:28
本发明专利技术涉及一种网络信息分类体系构建方法,将现有两种分类体系的优点集于一身,设计全新构建方法,采用Synonyms将词语映射到低维向量空间,通过词向量空间距离度量词语相似性,弥补了单一的one‑hot词向量语义信息的不足,从而能够获得更全面的相似类别词;并采用传统文献分类方法和自编分类方法集合的方式,弥补了文献分类分类方法领域适应性不足、以及自编分类方法科学性不强的缺陷,从而能够构建科学专业的分类体系;而且提出结合用户业务需求和预设筛选规则,对领域术语关联解释,参考提示进行类别体系的选择、删除、增加、修改,构建最终分类体系,使得分类体系更加科学、准确和专业。

A Method of Constructing Network Information Classification System

The present invention relates to a construction method of network information classification system, which integrates the advantages of two existing classification systems, designs a new construction method, maps words into low-dimensional vector space by Synonyms, measures word similarity by word vector space distance, makes up for the deficiency of single one hot word vector semantic information, and thus obtains more comprehensive similar category words. The traditional classification method and self-compiled classification method set are adopted to make up for the shortcomings of inadequate adaptability in the field of literature classification method and the lack of scientificity in self-compiled classification method, so as to construct the classification system of scientific specialty; furthermore, the classification system of scientific specialty can be constructed by combining the user's business needs and presupposed screening rules, and the related interpretation of domain terms and reference tips can be classified. Selection, deletion, addition and modification of the Department will help to build the final classification system, which will make the classification system more scientific, accurate and professional.

【技术实现步骤摘要】
一种网络信息分类体系构建方法
本专利技术涉及一种网络信息分类体系构建方法,属于网络信息分类

技术介绍
分类是指根据事物的属性进行区分和聚类,并按照其相互关系进行组织的活动,分类体系则是构建有序合理的类别划分体系与规则。随着互联网信息的爆炸增长,网络成为信息获取分析的重要来源,为舆情监控、事件预警等提供依托。但是,如何将海量网络信息进行类别的划分,进行全面体系化的分类体系构建仍然面临重要的挑战。目前网络信息的分类体系构建有两种方式,一是套用成熟的、权威的图书资料分类法,即传统文献分类体系构建法;二是依据业务需求自行设计分类法,即自编分类体系构建。但是存在着以下的缺陷:(1)传统文献分类体系学科性强,主要针对图书等依照学科进行分类,对网络信息尤其是面向开源网络领域的针对适用性不强;(2)自编分类体系种类繁多,科学性欠缺。由于自编分类体系往往应用于百科系统、门户网站、搜索引擎等,其设计适应于用户的使用习惯以及具体业务需求,与针对结构复杂、组成庞大的开源社交网络领域构建科学、准确、全面、通用的分类体系的需求不一致;(3)面向网络信息的分类体系构建需要有专家知识的介入。鉴于以上网络信息两种分类体系构建方法各自存在的缺陷,以及当前特殊领域分类体系构建方法的困难,若能够提供一种将两种分类体系的优点集于一身并结合领域专家知识新的分类体系构建的方法,则从网络资源中进行自动化的信息分类、数据挖掘分析提供更快、更有效的服务。
技术实现思路
本专利技术所要解决的技术问题是提供一种网络信息分类体系构建方法,将现有两种分类体系的优点集于一身,设计全新构建方法,从网络资源中进行自动化的信息分类、数据挖掘分析,提供更快、更有效的服务。本专利技术为了解决上述技术问题采用以下技术方案:本专利技术设计了一种网络信息分类体系构建方法,首先初始化目标信息类型领域的类别分类体系数据库为空,然后依次针对目标信息类型领域下的各个目标类别词,分别执行如下步骤:步骤A.查找类别分类体系数据库中是否存在目标类别词,是则返回对应该目标类别词的分类体系,该目标类别词的执行步骤结束;否则进入步骤B;步骤B.应用预设中文近义词查询工具,结合工具自带词汇语库,获得对应该目标类别词的各个相似类别词,并结合该目标类别词,组建该目标类别词所对应的待查询类别词集合,然后进入步骤C;步骤C.分别针对待查询类别词集合中的各个类别词,获得类别词分别对应各个指定现有分类文献当中的分类体系,然后进入步骤D;步骤D.分别针对待查询类别词集合中的各个类别词,将类别词所对应的各个分类体系进行融合,获得类别词所对应的融合分类体系,然后进入步骤E;步骤E.针对待查询类别词集合中各个类别词分别所对应的融合分类体系进行融合,作为该目标类别词所对应的分类体系,并加入至目标信息类型领域的类别分类体系数据库当中。作为本专利技术的一种优选技术方案,所述步骤E中,获得该目标类别词所对应的分类体系之后,直接执行如下步骤:步骤F.针对该目标类别词所对应分类体系当中的各个类别,关联预设指定词解文献,分别获得该各个类别的注解;同时,针对该目标类别词所对应分类体系当中的各个类别,针对重复出现的类别进行标记,更新该目标类别词所对应分类体系,然后进入步骤G;步骤G.根据预设规则,针对该目标类别词所对应分类体系进行增、删操作,更新该目标类别词所对应分类体系,并加入至目标信息类型领域的类别分类体系数据库当中。作为本专利技术的一种优选技术方案:所述步骤B中,应用Synonyms中文近义词查询工具,并基于工具自带词汇语库,通过类别词之间的空间距离,获得类别词之间的相似度,再结合预设相似度阈值,进而获得对应该目标类别词的各个相似类别词。作为本专利技术的一种优选技术方案:所述步骤B中,通过欧式距离计算方法或者余弦值计算方法,获得类别词之间的空间距离。作为本专利技术的一种优选技术方案:所述步骤C中,分别针对待查询类别词集合中的各个类别词,获得类别词分别对应各个指定现有分类文献当中的分类体系、以及获得所获分类体系的父类体系、子类体系,均作为该类别词所对应的各个分类体系,然后进入步骤D。作为本专利技术的一种优选技术方案:所述步骤C中,指定现有分类文献包括预设指定传统文献分类和预设指定自编文献分类。作为本专利技术的一种优选技术方案:所述步骤D中,将类别词所对应的各个分类体系进行融合的操作,以及步骤E中,针对待查询类别词集合中各个类别词分别所对应的融合分类体系进行融合的操作,均按如下规则执行;(1)若分类体系在不同的指定现有分类文献当中具有至少两个父类,且父类、以及类别层级各不相同,则保留所有的父类、以及层级,直接合并;(2)若分类体系在不同的指定现有分类文献当中具有至少两个父类,且存在相同父类,但类别层级不相同,则保留类别层级中最高的父类、以及层级;(3)若分类体系在不同的指定现有分类文献当中具有至少两个父类,且存在相同父类和类别层级,则保留其中任意一个父类体系;(4)若分类体系在不同的指定现有分类文献当中具有至少两个子类,并且子类、以及类别层级各不相同,则保留所有的子类、以及层级,直接合并;(5)若分类体系在不同的指定现有分类文献当中具有至少两个子类,存在相同子类,但类别层级不相同,则保留类别层级中最高的子类及层级,且在子类处的合并迭代使用融合规则;(6)若分类体系在不同的指定现有分类文献当中具有至少两个子类,存在相同子类和类别层级,则保留一个子类体系;(7)针对各个分类体系,若分类体系相同,则合并,若不同,则拓展。本专利技术所述一种网络信息分类体系构建方法采用以上技术方案与现有技术相比,具有以下技术效果:(1)本专利技术所设计网络信息分类体系构建方法,采用Synonyms将词语映射到低维向量空间,通过词向量空间距离度量词语相似性,弥补了单一的one-hot词向量语义信息的不足,从而能够获得更全面的相似类别词;(2)本专利技术所设计网络信息分类体系构建方法,采用传统文献分类方法和自编分类方法集合的方式,弥补了文献分类分类方法领域适应性不足、以及自编分类方法科学性不强的缺陷,从而能够构建科学专业的分类体系;(3)本专利技术所设计网络信息分类体系构建方法,提出结合用户业务需求和预设筛选规则,对领域术语关联解释,参考提示进行类别体系的选择、删除、增加、修改,构建最终分类体系,使得分类体系更加科学、准确和专业。附图说明图1是本专利技术所设计网络信息分类体系构建方法的流程图;图2是互动百科“政治”类别分类体系结构图;图3是“政治”类别融合分类体系图。具体实施方式下面结合说明书附图对本专利技术的具体实施方式作进一步详细的说明。本专利技术设计了一种网络信息分类体系构建方法,首先初始化目标信息类型领域的类别分类体系数据库为空,然后如图1所示,依次针对目标信息类型领域下的各个目标类别词,分别执行如下步骤:步骤A.查找类别分类体系数据库中是否存在目标类别词,是则返回对应该目标类别词的分类体系,该目标类别词的执行步骤结束;否则进入步骤B。步骤B.应用预设中文近义词查询工具,结合工具自带词汇语库,获得对应该目标类别词的各个相似类别词,并结合该目标类别词,组建该目标类别词所对应的待查询类别词集合,然后进入步骤C。针对上述步骤B中,对于目标类别词所对应各个相似类别词的获取,在实际应用中,具体设计应用Synony本文档来自技高网...

【技术保护点】
1.一种网络信息分类体系构建方法,其特征在于:首先初始化目标信息类型领域的类别分类体系数据库为空,然后依次针对目标信息类型领域下的各个目标类别词,分别执行如下步骤:步骤A. 查找类别分类体系数据库中是否存在目标类别词,是则返回对应该目标类别词的分类体系,该目标类别词的执行步骤结束;否则进入步骤B;步骤B. 应用预设中文近义词查询工具,结合工具自带词汇语库,获得对应该目标类别词的各个相似类别词,并结合该目标类别词,组建该目标类别词所对应的待查询类别词集合,然后进入步骤C;步骤C. 分别针对待查询类别词集合中的各个类别词,获得类别词分别对应各个指定现有分类文献当中的分类体系,然后进入步骤D;步骤D. 分别针对待查询类别词集合中的各个类别词,将类别词所对应的各个分类体系进行融合,获得类别词所对应的融合分类体系,然后进入步骤E;步骤E. 针对待查询类别词集合中各个类别词分别所对应的融合分类体系进行融合,作为该目标类别词所对应的分类体系,并加入至目标信息类型领域的类别分类体系数据库当中。

【技术特征摘要】
1.一种网络信息分类体系构建方法,其特征在于:首先初始化目标信息类型领域的类别分类体系数据库为空,然后依次针对目标信息类型领域下的各个目标类别词,分别执行如下步骤:步骤A.查找类别分类体系数据库中是否存在目标类别词,是则返回对应该目标类别词的分类体系,该目标类别词的执行步骤结束;否则进入步骤B;步骤B.应用预设中文近义词查询工具,结合工具自带词汇语库,获得对应该目标类别词的各个相似类别词,并结合该目标类别词,组建该目标类别词所对应的待查询类别词集合,然后进入步骤C;步骤C.分别针对待查询类别词集合中的各个类别词,获得类别词分别对应各个指定现有分类文献当中的分类体系,然后进入步骤D;步骤D.分别针对待查询类别词集合中的各个类别词,将类别词所对应的各个分类体系进行融合,获得类别词所对应的融合分类体系,然后进入步骤E;步骤E.针对待查询类别词集合中各个类别词分别所对应的融合分类体系进行融合,作为该目标类别词所对应的分类体系,并加入至目标信息类型领域的类别分类体系数据库当中。2.根据权利要求1所述一种网络信息分类体系构建方法,其特征在于,所述步骤E中,获得该目标类别词所对应的分类体系之后,直接执行如下步骤:步骤F.针对该目标类别词所对应分类体系当中的各个类别,关联预设指定词解文献,分别获得该各个类别的注解;同时,针对该目标类别词所对应分类体系当中的各个类别,针对重复出现的类别进行标记,更新该目标类别词所对应分类体系,然后进入步骤G;步骤G.根据预设规则,针对该目标类别词所对应分类体系进行增、删操作,更新该目标类别词所对应分类体系,并加入至目标信息类型领域的类别分类体系数据库当中。3.根据权利要求1所述一种网络信息分类体系构建方法,其特征在于:所述步骤B中,应用Synonyms中文近义词查询工具,并基于工具自带词汇语库,通过类别词之间的空间距离,获得类别词之间的相似度,再结合预设相似度阈值,进而获得对应该目标类别词的各...

【专利技术属性】
技术研发人员:顾爽胡岩峰杨婷许舟军焦程波潘月浩金晨乔雪刘振
申请(专利权)人:中国科学院电子学研究所苏州研究院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1