一种环境类投诉举报文本自动标注和分类方法技术

技术编号:29134043 阅读:31 留言:0更新日期:2021-07-02 22:29
本发明专利技术提供一种环境类投诉举报文本自动标注和分类方法,属于文本特征提取与文本分类领域。本发明专利技术通过从大量无标签数据中提取出不同领域对应的特征触发词,构建出对应领域特征词典;利用词典和文本相似度计算可以对不同领域的文本进行自动标注,将无标签数据转化为有标签数据,并利用其对神经网络进行训练,得到合适的分类模型。相比于现有技术,本发明专利技术减少了由人工标注数据所引起的误差,节省人力与时间;避免了无监督学习方式带来的准确率低、模型复杂、算力要求高等问题;构建的分类模型具有较强的泛化能力,并且可以在模型部署上线后,不断进行升级与改进。

【技术实现步骤摘要】
一种环境类投诉举报文本自动标注和分类方法
本专利技术涉及文本特征提取与文本分类领域,具体涉及一种环境类投诉举报文本自动标注和分类方法。
技术介绍
涉及环境类的监督举报类型多种多样,将投诉举报经过分类,快速准确定位投诉原因后,再交由相应主管部门会提升一定的事件处理效率。但就目前所获取到的数据来看,绝大多数的投诉数据没有标签,再结合投诉举报文本具有口语化严重、表述不清的特点,直接构建分类器面临着诸多困难;而通过人工进行标注开销昂贵,费时费力,且容易受到标注者主观的影响。因此,本专利技术提出将自动标注与深度学习模型相结合,实现投诉举报类文本自动分类的任务。投诉举报分类问题的实质就是文本分类问题。针对文本分类领域,目前相关的工作主要分为两种方式:基于知识工程的分类方法和基于机器学习的分类方法。基于知识工程等方法要求在领域专家的辅助下对每一个分类的特征进行人工判定,给出识别规则,这种方法耗时耗力,并且很依赖专家的水平。随着科学技术的不断发展,很多学者提出利用机器学习的方法实现文本分类,针对特定领域实现了投诉举报文本的自动分类功能,一定程度上节省了本文档来自技高网...

【技术保护点】
1.一种环境类投诉举报类文本自动标注和分类的方法,其特征在于:具体包括以下步骤:/nS1:从海量无标签数据中进行随机抽样,构成一定规模的样本集;/nS2:对样本数据进行预处理,包括中文分词、去停用词、滤除过短文本;/nS3:利用Single-Pass算法对描述相似的文本进行聚类得到各种话题簇;/nS4:分别计算各簇中每个词语的信息熵,将含信息量大、可以较为明显反映出投诉主要问题所在的词语提取出来,构建领域关键词典;/nS5:通过相似度计算,从维基百科语料库中提取出近义词,扩展领域关键词典,进一步收录大量未登录词,提高领域关键词典的覆盖率;/nS6:将领域关键词典作为自动分类的依据为大量无标签数...

【技术特征摘要】
1.一种环境类投诉举报类文本自动标注和分类的方法,其特征在于:具体包括以下步骤:
S1:从海量无标签数据中进行随机抽样,构成一定规模的样本集;
S2:对样本数据进行预处理,包括中文分词、去停用词、滤除过短文本;
S3:利用Single-Pass算法对描述相似的文本进行聚类得到各种话题簇;
S4:分别计算各簇中每个词语的信息熵,将含信息量大、可以较为明显反映出投诉主要问题所在的词语提取出来,构建领域关键词典;
S5:通过相似度计算,从维基百科语料库中提取出近义词,扩展领域关键词典,进一步收录大量未登录词,提高领域关键词典的覆盖率;
S6:将领域关键词典作为自动分类的依据为大量无标签数据进行标注;
S7:通过深度学习网络TextCNN对数据进行特征提取,进行监督学习,构建分类模型。


2.按照权利要求1所述的一种环境类投诉举报类文本自动标注和分类的方法其特征生在于:,
所述步骤S2的预处理过程包括:
S201针对原始语料,采用Python的第三方库Jieba进行中文分词;
S202引入中文停用词表,去除语料中一些无意义的功能词,提高工作效率;
S203滤除经过步骤S201、S202后长度小于5个字的语句。


3.按照权利要求1所述的一种环境类投诉举报类文本自动标注和分类的方法,其特征在于:
所述步骤S3、S4和S5共同为构建领域特征词典的过程;步骤S3利用Single-Pass算法对少量数据进行聚类,提取粗粒度的特征词,构建种子词库;具体步骤为:
步骤S301,从输入文本序列D=D(d1,d2,...,dn)中选择第一条文本d1作为第一个话题簇c1;
步骤S302,选择第二条文本d2,根据下面公式,计算d2与c1中所有文本的相似度值并求平均数,得到Simavg(d2,c1);



上述公式中,w1i与w2i为分别代表了文档d2和c1中的向量;
步骤S303,若Simavg(d2,c1)大于相似度阈值Th,则将d2归入话题簇c1,跳转至步骤S305,否则跳转至步骤S304;
步骤S304,以d2为基础创建新的话题簇c2,跳转至步骤S306;
步骤S305,取d3,重复步骤S302;
步骤S306,取d3,计算d3与目前所有话题簇,即c1和c2中所有文本的相似度值并求平均数,得到Simavg(d3,c1),Simavg(d3,c2);
步骤S307,若MAX(Simavg(d3,c1),Simavg(d3,c2))≥Th,则将d3归入具有最大相似度值的话题簇中,否则以d3创建新的话题簇;
步骤S308,等待下一篇文档进入;
步骤S4和S5分别为构建、扩充领域特征词典。在本发明中,领域特征词典的作用是实现自动标注功能;
步骤S401,对步骤S3得到的话题簇分别进行词频统计,得到第i个簇中所有词汇的频次,记作ci=c(p1,p2,...,pn),其中pj(j=1,2,...,n)代表该簇中第j个词汇出现的频次,也即TF值;
步骤S402,再根据公式(2)计算ci中所有词汇的IDF值,记作ci=c(q1,q2,...,qn),其中qj(j=1,2,...,n)代表该簇中第j个词汇的IDF值;



其中,N代表语料库中文本的总数,N(x)代表包含词语x的文本总数;
步骤S403,结合每个词语的词频及TF-IDF值,筛选出一批词频高、特征清晰的领域特征词,以这些词作为种子词,构建细胞词库。


4.按照权利要...

【专利技术属性】
技术研发人员:范青武杨凯陈光王子栋
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1