【技术实现步骤摘要】
本专利技术属于聚类方法领域,尤其涉及一种基于进化算法的古籍专有名词聚类方法。
技术介绍
随着数据库技术和互联网技术普及和发展,人们因为大量数据已经陷入了“数据丰富,知识贫乏”的尴尬境地。面对浩瀚的数据海洋,不知所措。信息量虽然巨大,但对于用户来说,所需要信息只是其中很小的一部分。如何从浩瀚的文本信息资源中准确获取所需信息,已成为信息处理的一个关键问题。为解决这一技术问题,中国专利CN104657472A于2015年05月27日公开了一种英文文本聚类方法,该方法首先将英文文本进行预处理成向量空间模型,然后在聚类过程中,第一步是随机选取n个聚类中心,对于聚类中心,利用欧氏距离进行聚类的划分,使同一类的文本归为一个聚类,这样完成得到一个局部最优的聚类划分;第二步是进行进化算法的处理,所用到的是联姻的思想以及基因交叉变异的过程进行新一代聚类中心的选择,通过与文本间距离最近的原则进行聚类划分从而达到全局最优。因此,基于这些问题,提供一种可以实现全文检索和知识发现的基于进化算法的古籍专有名词聚类方法具有重要的现实意义。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种可以实现全文检索和知识发现的基于进化算法的古籍专有名词聚类方法。本专利技术解决其技术问题是采取以下技术方案实现的:一种基于进化算法的古籍专有名词聚类方法,所述一种基于进化算法的古籍专有名词聚类方法包括以下步骤:步骤1:特征提取:从与专有名词相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。步骤2:分类:根据专有名词的不同特征式,基于决策树方法,神经网络方法将其划分 ...
【技术保护点】
一种基于进化算法的古籍专有名词聚类方法,其特征在于:所述一种基于进化算法的古籍专有名词聚类方法包括以下步骤:步骤1:特征提取:从与专有名词相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。步骤2:分类:根据专有名词的不同特征式,基于决策树方法,神经网络方法将其划分为不同的数据类。步骤3:聚类:根据所处理的数据的一些属性特征,对一些专有名词进行分类,经过分类以后的数据,在各类之间其相似程度很小,而在某一类内部,其数据之间的相似度则很大。分类结束后,每类中的数据由惟一的标志进行标识,类中的数据的共同特征也被提取出来用于对该类的特征描述。步骤4:相关性分析:应用回归分析或信念网络技术,发现特征之间或数据之间的相互依赖关系。步骤5:偏差分析:针对分类中的反常实例、例外模式、观测结果对期望值的偏离以及量值随时间的变化进行分析,其基本思想是寻找观察结果与参照量之间的有意义的差别。
【技术特征摘要】
1.一种基于进化算法的古籍专有名词聚类方法,其特征在于:所述一种基于进化算法的古籍专有名词聚类方法包括以下步骤:步骤1:特征提取:从与专有名词相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。步骤2:分类:根据专有名词的不同特征式,基于决策树方法,神经网络方法将其划分为不同的数据类。步骤3:聚类:根据所处理的数据的一些属性特征,对一些专有名词进行分类,经过分类以后的数据,在各类之间其相似程度很小,而在某一类内部,其数据之间的相似度则很大。分类结束后,每类中的数据由惟一的标志进行标识,类中的数据的共同特征也被提取出来用于对该类的特征描述。步骤4:相关性分析:应用回归分析或信念网络技术,发现特征之间或...
【专利技术属性】
技术研发人员:杨存耿,谢术清,杨晓强,
申请(专利权)人:天津赛因哲信息技术有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。