【技术实现步骤摘要】
一种基于主动学习的问答语料情感分类方法及系统
本专利技术涉及计量主动学习
,并且更具体地,涉及一种基于主动学习的问答语料情感分类方法及系统。
技术介绍
智能客服随着机器学习和自然语言处理的发展极大地提高了企业的效率,方便用户询问的同时减轻了客服人员的压力,帮助企业实现了全新的客服行为体系框架,普遍应用于电信、银行等诸多领域。在智能客服的主要应用中,情感分类占据着越来越重要的位置。早期的大部分工作都是利用监督学习方法对社交数据进行训练,如神经网络和支持向量机。然而,有监督学习需要大量的数据进行训练,但是客服问答数据并没有社交数据那么多。针对数据集少,数据标注困难的情况,主动学习和迁移学习被提出,并情感分析中取得了较好的效果。主动学习和迁移学习在面对少量标注数据时都可以取得较好的效果,但是迁移学习需要大量的预训练才能获得较好的参数。主动学习则是通过训练初始小数据集,然后不断抽样进行人工标注的方法获取更好的效果。现有的主动学习在自然语言处理的应用当中主要是通过调整采样策略来提高文本分类的准确率,这种方法针对不同的分类 ...
【技术保护点】
1.一种基于主动学习的问答语料情感分类方法,其特征在于,所述方法包括:/n步骤1,对语料库中的训练语句进行分词,并根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化词频-逆文档频率TF-IDF值,根据词语的优化TF-IDF值构建句子相量样本,确定训练数据;/n步骤2,将训练数据与人工标注数据集合、伪标签数据集、相似数据集分别组合训练,得到人工标注分类器,伪标签分类器和相似分类器;/n步骤3,对训练数据中根据抽样策略抽取的未标签数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器;/n步骤4,利用人工标注分类器,伪标签分类器和相似分类 ...
【技术特征摘要】
1.一种基于主动学习的问答语料情感分类方法,其特征在于,所述方法包括:
步骤1,对语料库中的训练语句进行分词,并根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化词频-逆文档频率TF-IDF值,根据词语的优化TF-IDF值构建句子相量样本,确定训练数据;
步骤2,将训练数据与人工标注数据集合、伪标签数据集、相似数据集分别组合训练,得到人工标注分类器,伪标签分类器和相似分类器;
步骤3,对训练数据中根据抽样策略抽取的未标签数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器;
步骤4,利用人工标注分类器,伪标签分类器和相似分类器分别对未标注数据进行分类,并根据投票策略更新投票数据集、伪标签数据集和未标注数据集;
步骤5,利用投票数据集和人工标注数据集对综合分类器进行训练,若未标注数据集已标注完成或分类准确率不变,则确定当前的综合分类器为已训练好的综合分类器;反之,则返回步骤2;
步骤6,根据待分类语料确定对应的句子相量,并利用所述已训练好的综合分类器确定情感分类结果。
2.根据权利要求1所述的方法,其特征在于,所述根据词语的位置加权值、词性加权值,利用优化的TF-IDF计算公式确定语句的优化TF-IDF值,包括:
TFIDF=(ω1+ωp)·ωtf·ωdif,
其中,ni,j是词i才文档j中出现的次数,是文档j中所有词语出现次数和,TF的值越大说明词语在文档中越重要;D是总文档数,是包含词语wi的总文档数;loc表示词语是否在开头结尾和标点前后,句子开头结尾和标点前后的词语默认为1,句子中间的词语默认为0;sub和obj代表主客观中词语n词性的比重;ω1为位置加权值;ωp为词性加权值;TFIDF为词语的优化TF-IDF值。
3.根据权利要求1所述的方法,其特征在于,所述对训练数据中根据抽样策略抽取的未标注数据进行无监督的聚类,将相似数据加入相似数据集并重新训练相似分类器,包括:
计算所有未标注数据集合的后验概率{Pθ(y1,y2…yn|xj)};
依据Margin挑选标准计算所有未标注数据集的并升序排序;
根据排序结果选取预设个数的伪标签数据样本,并确定其样本标签相似度simlabel,包括:
其中,xj是n个样本中初始随机选取的核心点;设置样本相似阈值γ,通过样本标签相似度simlabel构造聚类簇Ck;
根据优化TF-IDF值计算得到的文本向量,计算出文本的余弦相似度simt,从聚类簇Ck中找到Maxsimt、Minsimt以及中间点并输出至相似数据集。
根据当前的相似数据集重新训练相似分类器。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将选取的预设个数的未标注数据进行人工标注,并放入人工标注数据集中。
5.根据权利要求1所述的方法,其特征在于,所述根据投票策略更新投票数据集、伪标签数据集和未标注数据集,包括:
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果一致,则将该数据加入到投票数据集中;
若人工标注分类器,伪标签分类器和相似分类器对未标注数据的分类结果超过分类器半数,则将该数据加入到伪标签数据集中;反之,则返回未标注数据集中。
6.一种基于主动学习的问答语料情感分类系统,其特征在于,...
【专利技术属性】
技术研发人员:刘振宇,王亚平,杨硕,孙科武,王芳,
申请(专利权)人:航天信息股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。