一种文本分类方法和系统技术方案

技术编号：24683895 阅读：75 留言：0更新日期：2020-06-27 08:06

本发明专利技术公开了一种文本分类方法和系统，所述方法包括：获取待分类文本，提取待分类文本的至少一个关键词；根据提取的关键词对待分类文本进行关键词分类得到第一分类类别，并判断分类关键词对应的准确率和覆盖率是否均高于对应的设定阈值，是则输出第一分类类别，否则进入下一步；将所述待分类文本输入文本分类模型得到第二分类类别，并统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例，当所述比例小于比例设定阈值时，输出第二分类类别；否则对所述待分类文本进行人工分类以获得第三分类类别并输出。本发明专利技术的文本分类方法分类效率高、准确率高。

A text classification method and system

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类方法和系统
本专利技术涉及数据处理
，具体的，本专利技术涉及一种文本分类方法和系统。
技术介绍
随着服务业的快速发展，所产生的用户投诉数量也随之增多。用户的投诉内容以文本的形式记录，形成投诉文本。用户的投诉可能涉及到不同的方面，从而需要对投诉文本进行分类，以使得服务方有方向性地对服务进行改进，提升用户的满意度。但是，目前处理文本分类主要采用人工分类的方式，采用人工对文本进行分类需要浪费大量的人力成本并且也需要耗损大量的时间，分类效率低。此外，主观性因素对人工分类影响较大，会造成分类不准确的情况。因此，需要一种可以对文本进行快速分类并且分类准确率高的文本分类方法。
技术实现思路
为了解决上述技术问题，本申请提供了一种文本分类方法和系统。该文本分类方法通过将关键词分类、文本分类模型以及人工分类相结合，优先使用关键词分类和文本分类模型，并利用人工分类的结果不断更新关键词分类数据库和文本分类模型，扩大关键词分类数据库和文本分类模型的适用范围。第一方面，本专利技术披露了一种文本分类方法，包括:获取待分类文本，提取待分类文本的至少一个关键词；根据提取的关键词对待分类文本进行关键词分类得到第一分类类别，并判断分类关键词对应的准确率和覆盖率是否均高于对应的设定阈值，是则输出第一分类类别，否则进入下一步；将所述待分类文本输入文本分类模型得到第二分类类别，并统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例，当所述比例小于比例设定阈值时，输...

【技术保护点】
1.一种文本分类方法，其特征在于，所述方法包括：/n获取待分类文本，提取待分类文本的至少一个关键词；/n根据提取的关键词对待分类文本进行关键词分类得到第一分类类别，并判断分类关键词对应的准确率和覆盖率是否均高于对应的设定阈值，是则输出第一分类类别，否则进入下一步；/n将所述待分类文本输入文本分类模型得到第二分类类别，并统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例，当所述比例小于比例设定阈值时，输出第二分类类别；/n否则对所述待分类文本进行人工分类以获得第三分类类别并输出。/n

【技术特征摘要】
1.一种文本分类方法，其特征在于，所述方法包括：
获取待分类文本，提取待分类文本的至少一个关键词；
根据提取的关键词对待分类文本进行关键词分类得到第一分类类别，并判断分类关键词对应的准确率和覆盖率是否均高于对应的设定阈值，是则输出第一分类类别，否则进入下一步；
将所述待分类文本输入文本分类模型得到第二分类类别，并统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例，当所述比例小于比例设定阈值时，输出第二分类类别；
否则对所述待分类文本进行人工分类以获得第三分类类别并输出。

2.如权利要求1所述的方法，其特征在于，所述待分类文本为投诉文本。

3.如权利要求1所述的方法，其特征在于，所述文本分类模型包括LR模型和Xgboost模型中的至少一种。

4.如权利要求2所述的方法，其特征在于，根据提取的关键词对待分类文本进行关键词分类得到第一分类类别，包括：
获取关键词分类数据库，所述关键词分类数据库包括多个分类关键词、所述多个分类关键词分别对应的第一分类类别、准确率和覆盖率；
将提取的关键词与所述多个分类关键词进行相似度匹配，以获得与提取的关键词相匹配的分类关键词，并从所述关键词分类数据库中得到该分类关键词对应的第一分类类别、准确率和覆盖率。

5.如权利要求4所述的方法，其特征在于，统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例，包括：
获取历史投诉文本，人工分析标记，将标记后的历史投诉文本作为训练样本；
利用所述训练样本对所述文本分类模型进行训练；
将所述待分类文本输入所述文本分类模型，获得第二分类类别和所述待分类文本中每个字和/或者词的权重值；
其中，根据所述待分类文本中的字或词在所述训练样本中出现的频次确定该字和/或者词的权重值；未在历史分类文本中出现过的字和/或者词的权重值为0。

6.如权利要求5所述的方法，其特征在于，对所述待分类文本进行人工分类以获得第三分类类别，还包括：
将所述待分类文本的关键词和分类结果更新至关键词分类数据库中；
将人工分类后的所述待分类文本更新至所述训练样本中，利用更新后的所述训练样本对所述文本分类模型进行训练。

7.一种文本分类系统，其特征在于，包括：
提取模块，用于获取待分类文本，提取待分类文本的至少一个关键词；
第一分类模块，用于根据提取的关键词对待分类文本进行关键词分类得到第一分类类别，并判断分类关...

【专利技术属性】
技术研发人员：缪莹莹，王志龙，时少辉，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人