【技术实现步骤摘要】
一种文本分类方法、评论情感分析方法及装置
[0001]本专利技术涉及自然语言处理
,尤其涉及一种文本分类方法、评论情感分析方法及装置。
技术介绍
[0002]文本分类技术是自然语言处理技术中的一个重要分支,其可以被应用于情感分析、垃圾邮件过滤、新闻分类、命名实体识别等多个场景中。
[0003]随着经济全球化的发展,待分类的文本所涉及到的语言和领域越来越多。例如,在对用户评论进行情感分析的应用场景中,不同国家、地区的用户可能采用不同的语言,对不同领域的产品或服务进行评价。相应地,待分类的文本为这些不同语言、不同领域的用户评论数据,例如汉语的电子产品评价、英语的电影评价、法语的图书评价、日语的音乐评价等。
[0004]目前,针对不同语言/领域的文本分类问题,通常采用该语言/领域的已标注的文本数据作为训练样本来训练机器学习模型,然后采用训练好的模型来对相同语言/领域的待分类文本进行分类,确定其所属的类别。针对不同的语言/领域,需要训练不同的机器学习模型。然而,从不同的语言/领域获取大量文本数据并从中标注出足够 ...
【技术保护点】
【技术特征摘要】
1.一种文本分类方法,包括:获取待分类文本,其中,所述待分类文本的语言为源语言和目标语言集合中的任意一种,所述待分类文本所属的领域为源领域和目标领域集合中的任意一种;将所述待分类文本输入预设的文本分类模型,以便所述文本分类模型输出所述待分类文本所属的类别,其中,所述文本分类模型以已标注类别的源语言、源领域的文本数据和未标注类别的源语言、目标领域的文本数据为训练样本训练得出。2.如权利要求1所述的方法,其中,所述文本分类模型包括:多语言嵌入模块,适于对待分类文本进行处理,以生成所述待分类文本的跨语言表示向量;无监督特征分解模块,适于从所述跨语言表示向量中提取出领域不变特征和领域特定特征;分类模块,适于根据所述领域不变特征和领域特定特征来确定所述待分类文本所属的类别。3.如权利要求2所述的方法,其中,所述文本分类模型按照以下步骤训练:获取预训练的多语言嵌入模块;将未标注类别的源语言、目标领域的文本数据作为训练样本,训练所述无监督特征分解模块;在所述无监督特征分解模块训练完成后,将已标注类别的源语言、源领域的文本数据作为训练样本,训练所述分类模块。4.如权利要求3所述的方法,其中,所述无监督特征分解模块的训练样本的数量小于所述分类模块的训练样本的数量。5.如权利要求2-4中任一项所述的方法,其中,所述无监督特征分解模块包括:域不变特征提取器,适于从所述跨语言表示向量中提取出领域不变特征;域特定特征提取器,适于从所述跨语言表示向量中提取出领域特定特征。6.如权利要求5所述的方法,其中,所述域不变特征提取器包括至少两个第一处理单元,每个第一处理单元包括至少一个前馈处理层和一个残差连接层,其中,所述残差连接层适于将相应第一处理单元的第一个前馈处理层的输入与最后一个前馈处理层的输出相加。7.如权利要求5所述的方法,其中,所述域特定特征提取器包括至少两个第二处理单元,每个第二处理单元包括至少一个前馈处理层。8.如权利要求5-7中任一项所述的方法,其中,所述域不变特征提取器所包括的第一处理单元的数量与所述域特定特征提取器所包括的第二处理单元的数量相同。9.如权利要求8所述的方法,其中,所述无监督特征分解模块的训练目标是:使所述域不变特征提取器的输入和输出的互信息的相反数与每一对第一处理单元、第二处理单元的输出的互信息的加权和最小。10.如权利要求2-9中任一项所述的方法,其中,所述分类模块包括一个线性层和一个Softmax前馈层。11.如权利要求10所述的方法,其中,所述分类模块的训练目标是:使交叉熵损失最小。12.一种评论情感分析方法,包括:
获取待分析的评论文本,其...
【专利技术属性】
技术研发人员:李俊涛,何瑞丹,叶海,黄伟道,邴立东,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。