【技术实现步骤摘要】
一种文本信息分类方法及其装置
本专利技术涉及文本信息的分类
,尤其涉及一种文本信息分类方法及其装置。
技术介绍
随着信息分类技术的发展,各企业中的信息处理部门,每天都会接收或者积累海量的信息,在一些情况下,需要从该信息中提取某一类别的信息,但是由于这些信息与类别之间并没有建立直接的对应关系,因此,无法直接用搜索引擎检索进行提取。现有的对信息归类的的方法通常是采用人工的方式进行逐条分析,这样会花费不少的人力人工。而同时随着交互信息数量的不断增加,或者每天相关工作的不断累积增加,这时,若再需要在相同的时间内将这些信息高质量地处理完,则需要提高工作人员的处理速度或者投入更多的人力资源,但是当前采用人力的方式是很难做到效率和质量的同等的要求,因为这种通过人为智慧来分类,并不能保证每个工作人员对信息的类别都有相同的认知,使得在分类时对于信息的查全率也会有一定程度的差异,导致分类的准确率较低。
技术实现思路
本专利技术实施例提供的文本信息分类方法及其装置,以解决现有技术中主要通过人工的方式对文本信息进行分类处理,造成的分析周期长,工作效率低下,且查全率不高的技术问题。为解决 ...
【技术保护点】
一种文本信息分类方法,包括:获取待分类文本信息;根据预设规则从所述待分类文本信息中提取关键词信息集,所述关键词信息集包括至少一个关键词信息;根据所述关键词信息集,以及预设的样本关键词信息集与文本类别信息的对应关系,匹配所述关键词信息集对应的文本类别信息;根据匹配出的文本类别信息对所述待分类文本信息进行分类。
【技术特征摘要】
1.一种文本信息分类方法,包括:获取待分类文本信息;根据预设规则从所述待分类文本信息中提取关键词信息集,所述关键词信息集包括至少一个关键词信息;根据所述关键词信息集,以及预设的样本关键词信息集与文本类别信息的对应关系,匹配所述关键词信息集对应的文本类别信息;根据匹配出的文本类别信息对所述待分类文本信息进行分类。2.根据权利要求1所述的文本信息分类方法,其特征在于,所述根据预设规则从所述待分类文本信息中提取关键词信息集包括:去除所述待分类文本信息中的标点符号后,按照所述待分类文本信息的内容的原本顺序进行关键词分割,分割得到至少一个关键词信息。3.根据权利要求1所述的文本信息分类方法,其特征在于,还包括通过以下方式获取所述样本关键词信息集与文本类别信息的对应关系:对预先获取到的多个样本文本信息进行分类,并提取分类后各文本类别中各个样本文本信息的关键词信息,组成所述样本关键词信息集;将从同一个文本类别的样本文本信息中提取出的样本关键词信息集与该文本类别信息之间建立对应关系。4.根据权利要求1至3任一项所述的文本信息分类方法,其特征在于,所述根据所述关键词信息集,以及预设的样本关键词信息集与文本类别信息的对应关系,匹配所述关键词信息集对应的文本类别信息包括:将所述关键词信息集中的各个关键词信息,与预设的各个文本类别信息对应的样本关键词信息集进行匹配,得到与各个样本关键词信息集一一对应的原第一字符串或得到由各个原第一字符串按照预设顺序排列组成的原第二字符串;所述原第一字符串包括字符0和/或字符1,且每个字符0和1所在的位置顺序与各文本类别的各关键词信息在对应的样本关键词信息集中的位置顺序是一一对应的,所述字符0表示所述待分类文本信息的关键词信息不存在于所述样本关键词信息集中,所述字符1表示所述待分类文本信息的关键词信息存在于所述样本关键词信息集中;根据得到的原字符串识别所述关键词信息集对应的文本类别信息。5.根据权利要求4所述的文本信息分类方法,其特征在于,在所述得到所述原第一字符串或原第二字符串之后,所述根据得到的原字符串识别所述关键词信息集对应的文本类别信息之前,还包括:根据预先学习得到的分类模...
【专利技术属性】
技术研发人员:周晶,
申请(专利权)人:中兴通讯股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。