一种文本分类方法和系统技术方案

技术编号:24683895 阅读:75 留言:0更新日期:2020-06-27 08:06
本发明专利技术公开了一种文本分类方法和系统,所述方法包括:获取待分类文本,提取待分类文本的至少一个关键词;根据提取的关键词对待分类文本进行关键词分类得到第一分类类别,并判断分类关键词对应的准确率和覆盖率是否均高于对应的设定阈值,是则输出第一分类类别,否则进入下一步;将所述待分类文本输入文本分类模型得到第二分类类别,并统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例,当所述比例小于比例设定阈值时,输出第二分类类别;否则对所述待分类文本进行人工分类以获得第三分类类别并输出。本发明专利技术的文本分类方法分类效率高、准确率高。

A text classification method and system

【技术实现步骤摘要】
一种文本分类方法和系统
本专利技术涉及数据处理
,具体的,本专利技术涉及一种文本分类方法和系统。
技术介绍
随着服务业的快速发展,所产生的用户投诉数量也随之增多。用户的投诉内容以文本的形式记录,形成投诉文本。用户的投诉可能涉及到不同的方面,从而需要对投诉文本进行分类,以使得服务方有方向性地对服务进行改进,提升用户的满意度。但是,目前处理文本分类主要采用人工分类的方式,采用人工对文本进行分类需要浪费大量的人力成本并且也需要耗损大量的时间,分类效率低。此外,主观性因素对人工分类影响较大,会造成分类不准确的情况。因此,需要一种可以对文本进行快速分类并且分类准确率高的文本分类方法。
技术实现思路
为了解决上述技术问题,本申请提供了一种文本分类方法和系统。该文本分类方法通过将关键词分类、文本分类模型以及人工分类相结合,优先使用关键词分类和文本分类模型,并利用人工分类的结果不断更新关键词分类数据库和文本分类模型,扩大关键词分类数据库和文本分类模型的适用范围。第一方面,本专利技术披露了一种文本分类方法,包括:获取待分类文本,提取待分类文本的至少一个关键词;根据提取的关键词对待分类文本进行关键词分类得到第一分类类别,并判断分类关键词对应的准确率和覆盖率是否均高于对应的设定阈值,是则输出第一分类类别,否则进入下一步;将所述待分类文本输入文本分类模型得到第二分类类别,并统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例,当所述比例小于比例设定阈值时,输出第二分类类别;否则对所述待分类文本进行人工分类以获得第三分类类别并输出。在一些实施例中,所述待分类文本为投诉文本。在一些实施例中,所述文本分类模型包括LR模型和Xgboost模型中的至少一种。在一些实施例中,根据提取的关键词对待分类文本进行关键词分类得到第一分类类别,包括:获取关键词分类数据库,所述关键词分类数据库包括多个分类关键词、所述多个分类关键词分别对应的第一分类类别、准确率和覆盖率;将提取的关键词与所述多个分类关键词进行相似度匹配,以获得与提取的关键词相匹配的分类关键词,并从所述关键词分类数据库中得到该分类关键词对应的第一分类类别、准确率和覆盖率。在一些实施例中,统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例,包括:获取历史投诉文本,人工分析标记,将标记后的历史投诉文本作为训练样本;利用所述训练样本对所述文本分类模型进行训练;将所述待分类文本输入所述文本分类模型,获得第二分类类别和所述待分类文本中每个字和/或者词的权重值;其中,根据所述待分类文本中的字或词在所述训练样本中出现的频次确定该字和/或者词的权重值;未在历史分类文本中出现过的字和/或者词的权重值为0。在一些实施例中,对所述待分类文本进行人工分类以获得第三分类类别,还包括:将所述待分类文本的关键词和分类结果更新至关键词分类数据库中;将人工分类后的所述待分类文本更新至所述训练样本中,利用更新后的所述训练样本对所述文本分类模型进行训练。第二方面,本专利技术披露了一种文本分类系统,包括:提取模块,用于获取待分类文本,提取待分类文本的至少一个关键词;第一分类模块,用于根据提取的关键词对待分类文本进行关键词分类得到第一分类类别,并判断分类关键词对应的准确率和覆盖率是否均高于对应的设定阈值,是则输出第一分类类别;第二分类模块,用于将所述待分类文本输入文本分类模型得到第二分类类别,并统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例,当所述比例小于比例设定阈值时,输出第二分类类别;第三分类模块,用于当所述比例大于等于设定阈值时,对所述待分类文本进行人工分类以获得第三分类类别并输出。在一些实施例中,所述待分类文本为投诉文本。在一些实施例中,所述文本分类模型包括LR模型和Xgboost模型中的至少一种。在一些实施例中,所述第一分类模块包括:获取单元,用于获取关键词分类数据库,所述关键词分类数据库包括多个分类关键词、所述多个分类关键词分别对应的第一分类类别、准确率和覆盖率;关键词匹配单元,用于将提取的关键词与所述多个分类关键词进行相似度匹配,以获得与提取的关键词相匹配的分类关键词,并从所述关键词分类数据库中得到该分类关键词对应的第一分类类别、准确率和覆盖率。在一些实施例中,所述第二分类模块包括:样本生成单元,用于获取历史投诉文本,人工分析标记,将标记后的历史投诉文本作为训练样本;模型训练单元,用于利用所述训练样本对所述文本分类模型进行训练;模型分类单元,用于将所述待分类文本输入所述文本分类模型,获得第二分类类别和所述待分类文本中每个字和/或者词的权重值;其中,根据所述待分类文本中的字或词在所述训练样本中出现的频次确定该字和/或者词的权重值;未在历史分类文本中出现过的字和/或者词的权重值为0。在一些实施例中,所述第三分类模块还用于:将所述待分类文本的关键词和分类结果更新至所述关键词分类数据库中;将人工分类后的所述待分类文本更新至所述训练样本中,利用更新后的所述训练样本对所述文本分类模型进行训练。第三方面,本专利技术披露了一种文本分类装置,包括:至少一个处理器;以及存储器,所述存储器上存储有可执行指令,所述可执行指令由所述至少一个处理器执行,导致所述装置实现所述文本分类方法。第四方面,本专利技术披露了一种计算机可读储存介质,包括可执行指令,所述指令被至少一个处理器执行时,实现所述文本分类方法。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。附图说明为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。图1为文本分类系统的一种示例系统配置示意图;图2为用于实现本专利技术技术方案的专用系统的示例性计算设备的框图;图3为用于实现本专利技术技术方案的专用系统的示例性移动设备的框图;图4为其中一个实施例提供的一种文本分类方法的流程图;图5为其中一个实施例提供的一种进行关键词分类的流程图;图6为其中一个实施例提供的一种利用文本分类模型进行分类的流程图;图7为其中一个实施例提供的一种文本分类系统的模块示意图;图8为其中一个实施例提供的一种第一分类模块的示意图;图9为其中一个实施例提供的一种第二分类模块的示意图。具体实施方式下面将结合附图和实施例对本专利技术作进一步的详细说明。本专利技术的前述和其它目的、特征、方面和优点将变得更加明显,以令本领域技术人员参照说明书文本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,所述方法包括:/n获取待分类文本,提取待分类文本的至少一个关键词;/n根据提取的关键词对待分类文本进行关键词分类得到第一分类类别,并判断分类关键词对应的准确率和覆盖率是否均高于对应的设定阈值,是则输出第一分类类别,否则进入下一步;/n将所述待分类文本输入文本分类模型得到第二分类类别,并统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例,当所述比例小于比例设定阈值时,输出第二分类类别;/n否则对所述待分类文本进行人工分类以获得第三分类类别并输出。/n

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本,提取待分类文本的至少一个关键词;
根据提取的关键词对待分类文本进行关键词分类得到第一分类类别,并判断分类关键词对应的准确率和覆盖率是否均高于对应的设定阈值,是则输出第一分类类别,否则进入下一步;
将所述待分类文本输入文本分类模型得到第二分类类别,并统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例,当所述比例小于比例设定阈值时,输出第二分类类别;
否则对所述待分类文本进行人工分类以获得第三分类类别并输出。


2.如权利要求1所述的方法,其特征在于,所述待分类文本为投诉文本。


3.如权利要求1所述的方法,其特征在于,所述文本分类模型包括LR模型和Xgboost模型中的至少一种。


4.如权利要求2所述的方法,其特征在于,根据提取的关键词对待分类文本进行关键词分类得到第一分类类别,包括:
获取关键词分类数据库,所述关键词分类数据库包括多个分类关键词、所述多个分类关键词分别对应的第一分类类别、准确率和覆盖率;
将提取的关键词与所述多个分类关键词进行相似度匹配,以获得与提取的关键词相匹配的分类关键词,并从所述关键词分类数据库中得到该分类关键词对应的第一分类类别、准确率和覆盖率。


5.如权利要求4所述的方法,其特征在于,统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例,包括:
获取历史投诉文本,人工分析标记,将标记后的历史投诉文本作为训练样本;
利用所述训练样本对所述文本分类模型进行训练;
将所述待分类文本输入所述文本分类模型,获得第二分类类别和所述待分类文本中每个字和/或者词的权重值;
其中,根据所述待分类文本中的字或词在所述训练样本中出现的频次确定该字和/或者词的权重值;未在历史分类文本中出现过的字和/或者词的权重值为0。


6.如权利要求5所述的方法,其特征在于,对所述待分类文本进行人工分类以获得第三分类类别,还包括:
将所述待分类文本的关键词和分类结果更新至关键词分类数据库中;
将人工分类后的所述待分类文本更新至所述训练样本中,利用更新后的所述训练样本对所述文本分类模型进行训练。


7.一种文本分类系统,其特征在于,包括:
提取模块,用于获取待分类文本,提取待分类文本的至少一个关键词;
第一分类模块,用于根据提取的关键词对待分类文本进行关键词分类得到第一分类类别,并判断分类关...

【专利技术属性】
技术研发人员:缪莹莹王志龙时少辉
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1