【技术实现步骤摘要】
一种用于对文本文件进行智能聚类的方法及系统
本专利技术涉及文本处理
,并且更具体地涉及,一种用于对文本文件进行智能聚类的方法及系统。
技术介绍
对于一些大型企事业单位,由于需要处理的文件数量大、种类多、内容广泛,仅由人工进行分类,工作量特别繁琐。如果对每个文件附加作者、标签、分类等属性,会大大增加人工的作业量。所以我们需要一个智能聚类的功能来实现上传文件、添加属性、智能聚类、自动标签的需求。文档聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种有监督的机器学习方法,智能聚类需要训练过程,需要预先对文档手工标注类别,因此具有一定的监督性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。
技术实现思路
根据本专利技术的一个方面,提供一种用于对文本文件进行智能聚类的方法,所述方法包括:获取待聚类的多个文本文件,确定多个文本文件中每个文本文件的文件类型,确定每个文本文件的文件类型是否符合预设的文件类型,将不符合预设文件类型的文本文件删除;确定符合预设文件类型的每个文本文件的至少一个语言种类,将每个文本文件中不符合至少一个语言种类的符号块组进行删除;对去除了符号块组的每个文本文件中的内容进行分词,对分词所获得的所有词语进行停用词过滤,以去掉去除了符号块组的每个文本文件中的所有的停用词;为去除了停用词的每个文本文件构建文本向量,将去除了停用词的每个文本文件上传到文件服务器 ...
【技术保护点】
1.一种用于对文本文件进行智能聚类的方法,所述方法包括:/n获取待聚类的多个文本文件,确定多个文本文件中每个文本文件的文件类型,确定每个文本文件的文件类型是否符合预设的文件类型,将不符合预设文件类型的文本文件删除;/n确定符合预设文件类型的每个文本文件的至少一个语言种类,将每个文本文件中不符合至少一个语言种类的符号块组进行删除;/n对去除了符号块组的每个文本文件中的内容进行分词,对分词所获得的所有词语进行停用词过滤,以去掉去除了符号块组的每个文本文件中的所有的停用词;/n为去除了停用词的每个文本文件构建文本向量,将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内;/n将所上传的每个文本文件封装成报文,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类,以生成初始的分类类型;/n若文本文件的初始分类类型与已有的任意分类类型的匹配值高于设定阈值,则将匹配值最高的分类类型作为文本文件的目标分类类型;/n若文本文件的初始分类类型与已有的每个分类类型的匹配值均低于设定阈值,则根据聚类规则生成多个候选的分类类型,并根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。/n
【技术特征摘要】
1.一种用于对文本文件进行智能聚类的方法,所述方法包括:
获取待聚类的多个文本文件,确定多个文本文件中每个文本文件的文件类型,确定每个文本文件的文件类型是否符合预设的文件类型,将不符合预设文件类型的文本文件删除;
确定符合预设文件类型的每个文本文件的至少一个语言种类,将每个文本文件中不符合至少一个语言种类的符号块组进行删除;
对去除了符号块组的每个文本文件中的内容进行分词,对分词所获得的所有词语进行停用词过滤,以去掉去除了符号块组的每个文本文件中的所有的停用词;
为去除了停用词的每个文本文件构建文本向量,将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内;
将所上传的每个文本文件封装成报文,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类,以生成初始的分类类型;
若文本文件的初始分类类型与已有的任意分类类型的匹配值高于设定阈值,则将匹配值最高的分类类型作为文本文件的目标分类类型;
若文本文件的初始分类类型与已有的每个分类类型的匹配值均低于设定阈值,则根据聚类规则生成多个候选的分类类型,并根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。
2.根据权利要求1所述的方法,还包括,获取具有分类类型的多个文本文件,利用具有分类类型的多个文本文件对智能聚类模型进行训练,以生成经过训练的智能聚类模型。
3.根据权利要求2所述的方法,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类包括:
基于经过训练的智能聚类模型并利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类。
4.根据权利要求1所述的方法,将确定了目标分类类型的每个文本文件的分类路径存储到数据库中。
5.根据权利要求1所述的方法,根据目标分类类型对经过聚类的文本文件进行查询。
6.一...
【专利技术属性】
技术研发人员:李文艺,刘丹,刘硕,吴伟刚,潘竞旭,鲁龙,宋颖,
申请(专利权)人:航天信息股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。