一种基于R语言的信息聚类方法技术

技术编号：22387445 阅读：36 留言：0更新日期：2019-10-29 06:32

一种基于R语言的信息聚类方法，所述方法包括以下步骤：S1、对信息进行统计并建立信息类型库；S2、获取待聚类的信息数据，以形成输入数据样本；S3、对输入数据样本进行预处理，形成输入数据样本的特征项集合；S4、搭建R语言服务器；S5、将信息类型库中的数据导入到所述R语言服务器内存；S6、将步骤3中生产的输入数据样本的特征项集合输入到R语言服务器中进行聚类分析；S7、通过R语言服务器对输入数据样本的特征项分析并对比信息类型库，获得信息聚类结果。本发明专利技术对信息聚类效率高且聚类准确精度好。

An information clustering method based on R language

全部详细技术资料下载

【技术实现步骤摘要】
一种基于R语言的信息聚类方法
本专利技术涉及信息聚类
，尤其涉及一种基于R语言的信息聚类方法。
技术介绍
R语言是一套完整的数据处理、计算和制图软件系统。其功能包括：数据存储和处理系统；数组运算工具(其向量、矩阵运算方面功能尤其强大)；完整连贯的统计分析工具；优秀的统计制图功能；简便而强大的编程语言：可操纵数据的输入和输出，可实现分支、循环，用户可自定义功能。在工作中，对不同信息需要进行聚类处理，由于其信息内容的庞大性，相同或相似信息在不同地区的展现形式存在差异，例如名称或词语的描述彼此不同，从而影响信息信息工作准确快速进行，需要通过对信息信息进行聚类，以便工作正常有序进行；目前的信息聚类方法效率差，且聚类辨析精度不高，容易因计算错误影响工作的正常进行。为解决上述问题，本申请中提出一种基于R语言的信息聚类方法。
技术实现思路
(一)专利技术目的为解决
技术介绍
中存在的技术问题，本专利技术提出一种基于R语言的信息聚类方法，对信息聚类效率高且聚类准确精度好。(二)技术方案为解决上述问题，本专利技术提供了一种基于R语言的信息聚类方法，所述方法包括以下步骤：S1、对信息进...

【技术保护点】
1.一种基于R语言的信息聚类方法，其特征在于，所述方法包括以下步骤：S1、对信息进行统计并建立信息类型库；S2、获取待聚类的信息数据，以形成输入数据样本；S3、对输入数据样本进行预处理，形成输入数据样本的特征项集合；S4、搭建R语言服务器；S5、将信息类型库中的数据导入到所述R语言服务器内存；S6、将步骤3中生产的输入数据样本的特征项集合输入到R语言服务器中进行聚类分析；S7、通过R语言服务器对输入数据样本的特征项分析并对比信息类型库，获得信息聚类结果。

【技术特征摘要】
1.一种基于R语言的信息聚类方法，其特征在于，所述方法包括以下步骤：S1、对信息进行统计并建立信息类型库；S2、获取待聚类的信息数据，以形成输入数据样本；S3、对输入数据样本进行预处理，形成输入数据样本的特征项集合；S4、搭建R语言服务器；S5、将信息类型库中的数据导入到所述R语言服务器内存；S6、将步骤3中生产的输入数据样本的特征项集合输入到R语言服务器中进行聚类分析；S7、通过R语言服务器对输入数据样本的特征项分析并对比信息类型库，获得信息聚类结果。2.根据权利要求1所述的一种基于R语言的信息聚类方法，其特征在于，对所述步骤1中建立的信息类型库进行管理。3.根据权利要求2所述的一种基于R语言的信息聚类方法，其特征在于，所述对信息类型库进行管理包括实时添加新的信息类型和删除过时弃用的信息类型。4.根据权利要求1所述的一种基于R语言的信息聚类方法，其特征在于，所述步骤2中获取待聚类的信息数据为一段历史时间内的信息数据。5.根据权利要求1所述的一种基于R语言的信息聚类方法，其特征在于，所述步骤3中对输入数据样本进行预处理为分词处理，所述分词处理包括当检测到样本信息中出现符号、英文单词和/或数字时，判断该符号、英文单词和/或数...

【专利技术属性】
技术研发人员：刘家祥，
申请(专利权)人：厦门耐特源码信息科技有限公司，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人