一种文件分类方法、装置及电子设备制造方法及图纸

技术编号:17561939 阅读:57 留言:0更新日期:2018-03-28 12:24
本发明专利技术实施例提供一种文件分类方法、装置及电子设备,属于数据处理技术领域。所述方法包括:将待分类投诉文本进行分词处理,获得多个待匹配词语;将所述多个待匹配词语与表征不同投诉问题的词典分别进行匹配,获取匹配结果;根据所述匹配结果确定所述待分类投诉文本所属投诉类别,以对上述待分类投诉文本进行分类;其中,所述表征不同投诉问题的词典为将多个历史投诉文本进行训练得到的。本方法中通过预先训练获得的多个词典,使得可以将多个待匹配词语与词典匹配,从而可以获得更加准确的匹配结果,可将待分类投诉文本进行准确分类,实现了针对不同投诉问题的投诉文本有较高的分类精度,提高了文本分类的性能。

A file classification method, device, and electronic equipment

【技术实现步骤摘要】
一种文件分类方法、装置及电子设备
本专利技术涉及数据处理
,具体而言,涉及一种文件分类方法、装置及电子设备。
技术介绍
随着计算机技术的发展,越来越多的企业、组织以及政府机构等依赖于计算机处理各类事务,在这一过程中,源源不断地产生大量的电子文档。在日常工作中或是进行档案管理时,一般需要将这些电子文档分入特定的类别,但是,在数据量呈现爆炸性增长的今天,某些企业可能一天内就产生几TB的数据,对应着成千上万的电子文档,对其进行人工甄别及管理无疑效率低,而随着计算机实现的自动分类给人们带来了很大的便利,但由于文本分类具有高维性、高稀疏度等特点,文本分类的性能还不能满足人们的实际需求,还具有非常大的改进空间。而随着电子政务的快速发展,政府网站建设的重心发生了转移,从建设初期主要为政府各个部门发各种新闻信息资源,转向了以提高政府的监管职能和服务水平为目的,应当从网站的实际工作出发,制定规范政府网站的工作制度,提升服务意识和政府网站的办事能力;加强网站与政务的合作,扩大政府网站与大众的互动交流;建立高效的投诉体系,增强监督力度。随着每天有大量的投诉和建议文本数据,所以,如何将投诉文本进行快速本文档来自技高网...
一种文件分类方法、装置及电子设备

【技术保护点】
一种文件分类方法,其特征在于,所述方法包括:将待分类投诉文本进行分词处理,获得多个待匹配词语;将所述多个待匹配词语与表征不同投诉问题的词典分别进行匹配,获取匹配结果;根据所述匹配结果确定所述待分类投诉文本所属投诉类别;其中,所述表征不同投诉问题的词典为将多个历史投诉文本进行训练得到的。

【技术特征摘要】
1.一种文件分类方法,其特征在于,所述方法包括:将待分类投诉文本进行分词处理,获得多个待匹配词语;将所述多个待匹配词语与表征不同投诉问题的词典分别进行匹配,获取匹配结果;根据所述匹配结果确定所述待分类投诉文本所属投诉类别;其中,所述表征不同投诉问题的词典为将多个历史投诉文本进行训练得到的。2.根据权利要求1所述的方法,其特征在于,还包括:对所述多个历史投诉文本中每个历史投诉文本进行分词处理,确定表征不同投诉问题的词语构成的词典;针对每个词典,根据该词典所包含的各词语的语义与该词典所表征投诉问题的关联程度的高低,将各词语划分语义集,并为每个语义集分配对应的权重范围;以及为每个词语从所属语义集对应的权重范围内确定权重;其中,与投诉问题关联程度越高的语义集所分配权重范围对应权重越大。3.根据权利要求2所述的方法,其特征在于,将所述多个待匹配词语与表征不同投诉问题的词典分别进行匹配,获取匹配结果,具体包括:获取所述多个待匹配词语中每个待匹配词语的在所述待分类投诉文本中的权重,将每个待匹配词语的权重作为第一词频向量;针对每个词典,获取为该词典中每个词语分配的权重,得到该词典对应的第二词频向量;按照预设相似度匹配算法,将所述第一词频向量分别与各词典分别对应的第二词频向量依次进行相似度匹配,直到确定出匹配的第二词频向量则停止继续匹配,并获取匹配结果。4.根据权利要求3所述的方法,其特征在于,获取所述多个待匹配词语中每个待匹配词语的在所述待分类投诉文本中的权重,具体包括:采用TF-IDF算法获取所述待分类投诉文本中每个待匹配词语的TF-IDF值,将待匹配词语的TF-IDF值作为该待匹配词语的权重。5.根据权利要求3-4中任一权项所述的方法,其特征在于,所述预设相似度匹配算法为夹角余弦算法;采用如下方式确定所述第一词频向量与任一第二词频向量之间的夹角余弦,完成相似度匹配:将所述第一词频向量表示为A=[A1,A2...An],第二词频向量表示为B=[B1,B2...Bn],基于夹角余弦公式进行相似度匹配,获取匹配结果。6.一种文件分类装置,其特征在于,所述装置包括:分词处理...

【专利技术属性】
技术研发人员:张斌德夏耘海王甲樑
申请(专利权)人:国信优易数据有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1