一种用于对文本文件进行智能聚类的方法及系统技术方案

技术编号:27975663 阅读:32 留言:0更新日期:2021-04-06 14:09
本发明专利技术涉及一种用于对文本文件进行智能聚类的方法及系统,方法包括:确定符合预设文件类型的每个文本文件的至少一个语言种类,将每个文本文件中不符合至少一个语言种类的符号块组进行删除;对去除了符号块组的每个文本文件中的内容进行分词,对分词所获得的所有词语进行停用词过滤,以去掉去除了符号块组的每个文本文件中的所有的停用词;为去除了停用词的每个文本文件构建文本向量,将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内;将所上传的每个文本文件封装成报文,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类,以生成初始的分类类型,根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。

【技术实现步骤摘要】
一种用于对文本文件进行智能聚类的方法及系统
本专利技术涉及文本处理
,并且更具体地涉及,一种用于对文本文件进行智能聚类的方法及系统。
技术介绍
对于一些大型企事业单位,由于需要处理的文件数量大、种类多、内容广泛,仅由人工进行分类,工作量特别繁琐。如果对每个文件附加作者、标签、分类等属性,会大大增加人工的作业量。所以我们需要一个智能聚类的功能来实现上传文件、添加属性、智能聚类、自动标签的需求。文档聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种有监督的机器学习方法,智能聚类需要训练过程,需要预先对文档手工标注类别,因此具有一定的监督性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。
技术实现思路
根据本专利技术的一个方面,提供一种用于对文本文件进行智能聚类的方法,所述方法包括:获取待聚类的多个文本文件,确定多个文本文件中每个文本文件的文件类型,确定每个文本文件的文件类型是否符合预设的文件类型,将不符合预设文件类型的文本文件删除;确定符合预设文件类型的每个文本文件的至少一个语言种类,将每个文本文件中不符合至少一个语言种类的符号块组进行删除;对去除了符号块组的每个文本文件中的内容进行分词,对分词所获得的所有词语进行停用词过滤,以去掉去除了符号块组的每个文本文件中的所有的停用词;为去除了停用词的每个文本文件构建文本向量,将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内;将所上传的每个文本文件封装成报文,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类,以生成初始的分类类型;若文本文件的初始分类类型与已有的任意分类类型的匹配值高于设定阈值,则将匹配值最高的分类类型作为文本文件的目标分类类型;若文本文件的初始分类类型与已有的每个分类类型的匹配值均低于设定阈值,则根据聚类规则生成多个候选的分类类型,并根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。还包括,获取具有分类类型的多个文本文件,利用具有分类类型的多个文本文件对智能聚类模型进行训练,以生成经过训练的智能聚类模型。利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类包括:基于经过训练的智能聚类模型并利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类。将确定了目标分类类型的每个文本文件的分类路径存储到数据库中。根据目标分类类型对经过聚类的文本文件进行查询。根据本专利技术的另一方面,提供一种用于对文本文件进行智能聚类的系统,所述系统包括:获取单元,获取待聚类的多个文本文件,确定多个文本文件中每个文本文件的文件类型,确定每个文本文件的文件类型是否符合预设的文件类型,将不符合预设文件类型的文本文件删除;删除单元,确定符合预设文件类型的每个文本文件的至少一个语言种类,将每个文本文件中不符合至少一个语言种类的符号块组进行删除;分词单元,对去除了符号块组的每个文本文件中的内容进行分词,对分词所获得的所有词语进行停用词过滤,以去掉去除了符号块组的每个文本文件中的所有的停用词;构建单元,为去除了停用词的每个文本文件构建文本向量,将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内;处理单元,将所上传的每个文本文件封装成报文,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类,以生成初始的分类类型;若文本文件的初始分类类型与已有的任意分类类型的匹配值高于设定阈值,则将匹配值最高的分类类型作为文本文件的目标分类类型;若文本文件的初始分类类型与已有的每个分类类型的匹配值均低于设定阈值,则根据聚类规则生成多个候选的分类类型,并根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。还包括,获取具有分类类型的多个文本文件,利用具有分类类型的多个文本文件对智能聚类模型进行训练,以生成经过训练的智能聚类模型。利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类包括:基于经过训练的智能聚类模型并利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类。将确定了目标分类类型的每个文本文件的分类路径存储到数据库中。根据目标分类类型对经过聚类的文本文件进行查询。本专利技术的关键点包括:1.使用Xgboost分类模型进行文本类别智能匹配的模型训练。2.对匹配值低于阈值的文档,可以由聚类算法自动生成两个最接近的分类,由用户进行人工确认,实现有监督的分类推荐。本专利技术的有益效果包括:一、在海量文件数据的基础上,可以实现快速对文件进行智能分类。二、文档分类不需要人工过多干涉,大大节约了人力成本。附图说明通过参考下面的附图,可以更为完整地理解本专利技术的示例性实施方式:图1为根据本专利技术实施方式的对文本文件进行智能聚类的方法的流程图;图2为根据本专利技术实施方式的对文本文件进行智能聚类的系统的结构示意图。具体实施方式图1为根据本专利技术实施方式的对文本文件进行智能聚类的方法的流程图。方法100包括:步骤101,获取待聚类的多个文本文件,确定多个文本文件中每个文本文件的文件类型,确定每个文本文件的文件类型是否符合预设的文件类型,将不符合预设文件类型的文本文件删除。步骤102,确定符合预设文件类型的每个文本文件的至少一个语言种类,将每个文本文件中不符合至少一个语言种类的符号块组进行删除。步骤103,对去除了符号块组的每个文本文件中的内容进行分词,对分词所获得的所有词语进行停用词过滤,以去掉去除了符号块组的每个文本文件中的所有的停用词。步骤104,为去除了停用词的每个文本文件构建文本向量,将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内。步骤105,将所上传的每个文本文件封装成报文,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类,以生成初始的分类类型。步骤106,若文本文件的初始分类类型与已有的任意分类类型的匹配值高于设定阈值,则将匹配值最高的分类类型作为文本文件的目标分类类型。步骤107,若文本文件的初始分类类型与已有的每个分类类型的匹配值均低于设定阈值,则根据聚类规则生成多个候选的分类类型,并根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。还包括,获取具有分类类型的多个文本文件,利用具有分类类型的多个文本文件对智能聚类模型进行训练,以生成经过训练的智能聚类模型。利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类包括:基于经过训练的智能聚类模型并利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类。将确定了目标分类类型的每个文本文件的分类路径存储到数据库中。根据目标分类类型对经过聚类的文本文件进行查询。图2为根据本专利技术实施方式的对文本文件进行智能聚类的系统的结构示意图。系统200包括:获取单本文档来自技高网...

【技术保护点】
1.一种用于对文本文件进行智能聚类的方法,所述方法包括:/n获取待聚类的多个文本文件,确定多个文本文件中每个文本文件的文件类型,确定每个文本文件的文件类型是否符合预设的文件类型,将不符合预设文件类型的文本文件删除;/n确定符合预设文件类型的每个文本文件的至少一个语言种类,将每个文本文件中不符合至少一个语言种类的符号块组进行删除;/n对去除了符号块组的每个文本文件中的内容进行分词,对分词所获得的所有词语进行停用词过滤,以去掉去除了符号块组的每个文本文件中的所有的停用词;/n为去除了停用词的每个文本文件构建文本向量,将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内;/n将所上传的每个文本文件封装成报文,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类,以生成初始的分类类型;/n若文本文件的初始分类类型与已有的任意分类类型的匹配值高于设定阈值,则将匹配值最高的分类类型作为文本文件的目标分类类型;/n若文本文件的初始分类类型与已有的每个分类类型的匹配值均低于设定阈值,则根据聚类规则生成多个候选的分类类型,并根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。/n

【技术特征摘要】
1.一种用于对文本文件进行智能聚类的方法,所述方法包括:
获取待聚类的多个文本文件,确定多个文本文件中每个文本文件的文件类型,确定每个文本文件的文件类型是否符合预设的文件类型,将不符合预设文件类型的文本文件删除;
确定符合预设文件类型的每个文本文件的至少一个语言种类,将每个文本文件中不符合至少一个语言种类的符号块组进行删除;
对去除了符号块组的每个文本文件中的内容进行分词,对分词所获得的所有词语进行停用词过滤,以去掉去除了符号块组的每个文本文件中的所有的停用词;
为去除了停用词的每个文本文件构建文本向量,将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内;
将所上传的每个文本文件封装成报文,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类,以生成初始的分类类型;
若文本文件的初始分类类型与已有的任意分类类型的匹配值高于设定阈值,则将匹配值最高的分类类型作为文本文件的目标分类类型;
若文本文件的初始分类类型与已有的每个分类类型的匹配值均低于设定阈值,则根据聚类规则生成多个候选的分类类型,并根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。


2.根据权利要求1所述的方法,还包括,获取具有分类类型的多个文本文件,利用具有分类类型的多个文本文件对智能聚类模型进行训练,以生成经过训练的智能聚类模型。


3.根据权利要求2所述的方法,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类包括:
基于经过训练的智能聚类模型并利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类。


4.根据权利要求1所述的方法,将确定了目标分类类型的每个文本文件的分类路径存储到数据库中。


5.根据权利要求1所述的方法,根据目标分类类型对经过聚类的文本文件进行查询。


6.一...

【专利技术属性】
技术研发人员:李文艺刘丹刘硕吴伟刚潘竞旭鲁龙宋颖
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1