【技术实现步骤摘要】
对话型文本分类的模型训练、分类、系统、设备和介质
本专利技术涉及文本分类领域,尤其涉及一种对话型文本分类的模型训练、分类、系统、设备和介质。
技术介绍
当前针对文本分类的模型训练方法主要分为两种,一种为把文档内的所有语句拼接起来再用基于CNN(卷积神经网络)、RNN(循环神经网络)或者BERT(BidirectionalEncoderRepresentationsfromTransformers,来自变压器的双向编码器表示)做文本分类建模,该模型训练方法的缺点是文本过长不仅增加了计算复杂度,而且丢失了句子间的相互关系,导致不能很好的构建上下文关系。另一种模型训练方法为限制文档内句子数量再拼接起来进行分类,相比于前一种方法虽然减少了文本长度,但是部分句子的丢失很可能会丢失语义,导致最终的分类结果精度不高。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中语句拼接丢失句与句之间的关系和限制文本内句子数量丢失语义导致分类结果准确度不高的缺陷,提供一种对话型文本分类的模型训练、分类、系统、设备和介质。 ...
【技术保护点】
1.一种对话型文本分类的模型训练方法,其特征在于,包括以下步骤:/n对训练数据进行违规标注得到第一数据,所述第一数据包括原始对话语句;/n将所述第一数据切分为多个分词;/n将所述分词与预训练的词向量进行匹配,得到第一分词向量;/n将所述第一分词向量与预训练的字向量进行匹配,得到第二分词向量;/n将所述第二分词向量输入到HAN模型进行训练。/n
【技术特征摘要】
1.一种对话型文本分类的模型训练方法,其特征在于,包括以下步骤:
对训练数据进行违规标注得到第一数据,所述第一数据包括原始对话语句;
将所述第一数据切分为多个分词;
将所述分词与预训练的词向量进行匹配,得到第一分词向量;
将所述第一分词向量与预训练的字向量进行匹配,得到第二分词向量;
将所述第二分词向量输入到HAN模型进行训练。
2.如权利要求1所述的对话型文本分类的模型训练方法,其特征在于,所述对训练数据进行违规标注得到第一数据的步骤具体包括:
使用聚类算法将所述训练数据分成若干份第一样本数据;
从每份所述第一样本数据中抽取若干条数据作为第二样本数据;
计算任一条所述第二样本数据与已标注的所述训练数据的编辑距离;
若所述编辑距离大于预设值,则对所述第一样本数据进行违规标注得到第一数据。
3.如权利要求1所述的对话型文本分类的模型训练方法,其特征在于,所述将所述第一数据切分为多个分词的步骤具体包括:
将所述第一数据进行预处理得第二数据;
将所述第二数据与预设模型数据比较滤掉所述第二数据中的无意义语句得到第三数据;
将所述第三数据切分为多个分词。
4.如权利要求1所述的对话型文本分类的模型训练方法,其特征在于,所述将所述第二分词向量输入到HAN模型进行训练的步骤具体包括:
将所述第二分词向量和预设特征向量输入到HAN模型进行训练。
5.如权利要求1所述的对话型文本分类的模型训练方法,其特征在于,所述模型训练方法还包括:
判断模型输出结果是否满足预设阀值,若是,则将模型输出结果作为分类结果;若否,则将模型输出结果置信度小于预设阀值的所述训练数据重新进行标注得到第四数据;
将所述第四数据重新输入到所述HAN模型进行训练,返回所述步骤判断模型输出结果是否满足预设阀值。
6.一种对话型文本的分类方法,其特征在于,所述分类方法包括以下步骤:
获取对话型文本数据,所述对话型文本数据包括原始对话语句;
将所述对话型文本数据切分为多个分词;
将所述分词与预训练的词向量进行匹配,得到第一分词向量;
将所述第一分词向量与预训练的字向量进行匹配,得到第二分词向量;
将所述第二分词向量输入到采用如权利要求1-5任一所述的对话型文本分类的模型训练方法训练出的HAN模型,得到分类结果。
7.如权利要求6所述的对话型文本的分类方法,其特征在于,所述将所述第二分词向量输入到采用如权利要求1-5任一所述的对话型文本分类的模型训练方法训练出的HAN模型,得到分类结果的步骤具体包括:
将所述第二分词向量和预设特征向量输入到采用如权利要求1-5任一所述的对话型文本分类的模型训练方法训练出的HAN模型,得到分类结果。
8.如权利要求6所述的对话型文本的分类方法,其特征在于,所述预训练的词向量包括Elmo词向量和Glove词向量;
所述预训练的字向量包括Glove字向量。
9.一种对话型文本分类的模型训练系统,其特征在于,包括以下模块:
第一数据获取模块,用于对训练数据进行违规标注得到第一数据,所述第一数据包括原始对话语句;
第一分词获取模块,用于将所述第一数据切分为多个分词;
第一向量获取模块,用于将所述分词与预训练的词向量进行匹配,得到第一分词向量;
第二向量获取模块,用于将所述第一分词向量与预训练的字向量进行匹配,...
【专利技术属性】
技术研发人员:杨森,罗超,胡泓,王思博,
申请(专利权)人:携程计算机技术上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。