一种创建文本分类模型的方法、装置、介质及设备制造方法及图纸

技术编号:34031427 阅读:50 留言:0更新日期:2022-07-06 11:13
本发明专利技术提供一种创建文本分类模型的方法、装置、介质及设备,方法包括:根据直播间的弹幕信息确定文本样本集合;将文本样本集合中的各文本样本转换为对应的文本向量;确定当前维文本特征与每个同类文本样本之间的第一距离,确定当前维文本特征与每个非同类文本样本之间的第二距离;基于第一距离及第二距离确定当前维文本特征的参考权重;基于每维文本特征的参考权重对当前文本向量进行降维;对降维后的目标文本向量进行训练,获得文本分类模型;如此,由于在降维时考虑到文本样本的类别,因此降维后可以得到与文本类别相关性较高的文本特征,较大程度上保留了文本的原始信息;在利用降维后的文本数据创建分类模型时,确保文本分类模型的精度。型的精度。型的精度。

A method, device, medium and equipment for creating text classification model

【技术实现步骤摘要】
一种创建文本分类模型的方法、装置、介质及设备


[0001]本专利技术涉及文本分类
,尤其涉及一种创建文本分类模型的方法、装置、介质及设备。

技术介绍

[0002]在直播平台中,需要对平台弹幕文本进行实时识别分类,识别平台用户的语气状态,以能对用户进行准确的活动引导,辅助运行平台的运营策略。
[0003]但是实际在处理文本的过程中,由于中文词组、汉字的数量巨大,基于词表生产的文本向量维度通常会比较巨大,为了去除文本中的噪声、提高数据处理效率,通常需要对数据进行降维。
[0004]相关技术中使用的降维方法通常是保留文本向量中前N个权重较大的文本特征,放弃权重较小的文本特征。但是文本领域中,权重较小的文本特征往往包含了高频信息和细节信息,因此在利用传统降维后的文本数据进行文本分类模型的训练时,文本分类模型的精度并不能得到确保。

技术实现思路

[0005]针对现有技术存在的问题,本专利技术实施例提供了一种创建文本分类模型的方法、装置、介质及设备,用于解决现有技术中,在利用降维的文本数据进行创建文本分类模型时,由于降维后的文本数据丢失了一些高频文本信息,因此导致创建的文本分类模型的精度不能得到确保的技术问题。
[0006]本专利技术的第一方面,提供一种创建文本分类模型的方法,所述方法包括:
[0007]根据直播间的弹幕信息确定文本样本集合,所述文本样本集合包括多种样本类别;
[0008]将所述文本样本集合中的各文本样本转换为对应的文本向量;
[0009]针对当前文本向量中的当前维文本特征,确定所述当前维文本特征与每个同类文本样本之间的第一距离,以及确定所述当前维文本特征与每个非同类文本样本之间的第二距离;
[0010]基于所述第一距离及所述第二距离确定所述当前维文本特征的参考权重;
[0011]基于每维文本特征的参考权重对所述当前文本向量进行降维,并获得降维后的目标文本向量;
[0012]对所述目标文本向量进行训练,获得文本分类模型。
[0013]上述方案中,所述根据直播间的弹幕信息确定文本样本集合,包括:
[0014]对所述弹幕信息进行分词,获得多个词语;
[0015]若确定所述弹幕信息中包含有积极语气的词语,则将所述弹幕信息归类为积极语气样本类别;
[0016]若确定所述弹幕信息中包含有消极语气的词语,则将所述弹幕信息归类为消极语
气样本类别;
[0017]若确定所述弹幕信息中包含有中立语气的词语,则将所述弹幕信息归类为中立语气样本类别;所述文本样本集合包括所述积极语气样本类别、所述消极语气样本类别及所述中立语气样本类别。
[0018]上述方案中,所述确定所述当前维文本特征与每个同类文本样本之间的第一距离,包括:
[0019]基于公式确定第一距离中间变量dis(A,R,G
i
);
[0020]基于公式确定所述当前维文本特征与每个同类文本样本之间的第一距离D1;其中,
[0021]所述T[A]为样本T的第A维特征值,所述样本T为所述当前文本向量对应的当前文本样本;所述G
i
[A]为样本G
i
的第A维特征值,所述样本G
i
与当前文本样本属于同类样本类别,所述G
i
为所述同类样本类别中的第i个文本样本;所述A为所述当前文本向量的当前维特征;所述max(A)为所有维特征值中的最大特征值;所述min(A)为所有维特征值中的最小特征值;所述i为所述同类样本类别中文本样本的序号;所述S为所述同类样本类别中的文本样本的总数量;所述R为距离标识参数;所述n为所述文本样本集合中的文本样本总数量;所述k为所述目标文本特征的预设数量。
[0022]上述方案中,所述确定所述当前维文本特征与每个非同类文本样本之间的第二距离,包括:
[0023]根据公式确定第二距离中间变量dis(A,R,M
j
(C));
[0024]根据公式确定所述当前维文本特征与每个非同类文本样本之间的第二距离D2;其中,
[0025]所述T[A]为样本T的第A维特征值,所述样本T为所述当前文本向量对应的当前文本样本;所述M
j
(C)[A]为样本M
j
(C)的第A维特征值,所述A为所述当前文本向量的当前维特征;所述M
j
(C)与所述当前文本样本属于非同类样本类别,所述M
j
(C)为非同类样本类别C中
的第j个文本样本;所述A为所述当前文本向量的当前维特征;所述max(A)为所有维特征值中的最大特征值;所述min(A)为所有维特征值中的最小特征值;所述j为所述非同类样本类别C中的文本向量的序号;所述N为所述非同类样本类别C中的文本样本的总数量;所述P(C)为所述非同类样本类别C在所述文本样本集合中的占比;所述R为距离标识参数;所述n为所述文本样本集合中的文本样本总数量;所述k为所述目标文本特征的预设数量。
[0026]上述方案中,所述基于所述第一距离及所述第二距离确定所述当前维文本特征的参考权重,包括:
[0027]根据公式P(A)=P

(A)

D1+D2确定所述当前维文本特征的参考权重P(A);其中,
[0028]所述D1为所述第一距离,所述D2为所述第二距离,所述P

(A)为所述当前维文本特征的初始权重。
[0029]上述方案中,所述基于每维文本特征的参考权重对所述当前文本向量进行降维,并获得降维后的目标文本向量,包括:
[0030]按照参考权重从大到小的保留策略对所述当前文本向量的各维文本特征进行筛选,获得预设数量的目标文本特征;所述预设数量的目标文本特征形成的文本向量为所述目标文本向量。
[0031]本专利技术的第二方面,提供一种创建文本分类模型的装置,所述装置包括:
[0032]第一确定单元,用于根据直播间的弹幕信息确定文本样本集合,所述文本样本集合包括多种样本类别;
[0033]转换单元,用于将所述文本样本集合中的各文本样本转换为对应的文本向量;
[0034]第二确定单元,用于针对当前文本向量中的当前维文本特征,确定所述当前维文本特征与每个同类文本样本之间的第一距离,以及确定所述当前维文本特征与每个非同类文本样本之间的第二距离;基于所述第一距离及所述第二距离确定所述当前维文本特征的参考权重;
[0035]降维单元,用于基于每维文本特征的参考权重对所述当前文本向量进行降维,并获得降维后的目标文本向量;
[0036]训练单元,用于对所述目标文本向量进行训练,获得文本分类模型。
[0037]上述方案中,所述第一确定单元具体用于:
[0038]对所述弹幕信息进行分词,获得多个词语;
[0039]若确定所述弹幕信息中包含有积极语气的词语,则将所述弹幕信息归类为积极语气样本类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种创建文本分类模型的方法,其特征在于,所述方法包括:根据直播间的弹幕信息确定文本样本集合,所述文本样本集合包括多种样本类别;将所述文本样本集合中的各文本样本转换为对应的文本向量;针对当前文本向量中的当前维文本特征,确定所述当前维文本特征与每个同类文本样本之间的第一距离,以及确定所述当前维文本特征与每个非同类文本样本之间的第二距离;基于所述第一距离及所述第二距离确定所述当前维文本特征的参考权重;基于每维文本特征的参考权重对所述当前文本向量进行降维,并获得降维后的目标文本向量;对所述目标文本向量进行训练,获得文本分类模型。2.如权利要求1所述的方法,其特征在于,所述根据直播间的弹幕信息确定文本样本集合,包括:对所述弹幕信息进行分词,获得多个词语;若确定所述弹幕信息中包含有积极语气的词语,则将所述弹幕信息归类为积极语气样本类别;若确定所述弹幕信息中包含有消极语气的词语,则将所述弹幕信息归类为消极语气样本类别;若确定所述弹幕信息中包含有中立语气的词语,则将所述弹幕信息归类为中立语气样本类别;所述文本样本集合包括所述积极语气样本类别、所述消极语气样本类别及所述中立语气样本类别。3.如权利要求1所述的方法,其特征在于,所述确定所述当前维文本特征与每个同类文本样本之间的第一距离,包括:基于公式确定第一距离中间变量dis(A,R,G
i
);基于公式确定所述当前维文本特征与每个同类文本样本之间的第一距离D1;其中,所述T[A]为样本T的第A维特征值,所述样本T为所述当前文本向量对应的当前文本样本;所述G
i
[A]为样本G
i
的第A维特征值,所述样本G
i
与当前文本样本属于同类样本类别,所述G
i
为所述同类样本类别中的第i个文本样本;所述A为所述当前文本向量的当前维特征;所述max(A)为所有维特征值中的最大特征值;所述min(A)为所有维特征值中的最小特征值;所述i为所述同类样本类别中文本样本的序号;所述S为所述同类样本类别中的文本样本的总数量;所述R为距离标识参数;所述n为所述文本样本集合中的文本样本总数量;所述k为所述目标文本特征的预设数量。
4.如权利要求1所述的方法,其特征在于,所述确定所述当前维文本特征与每个非同类文本样本之间的第二距离,包括:根据公式确定第二距离中间变量dis(A,R,M
j
(C));根据公式确定所述当前维文本特征与每个非同类文本样本之间的第二距离D2;其中,所述T[A]为样本T的第A维特征值,所述样本T为所述当前文本向量对应的当前文本样本;所述M
j
(C)[A]为样本M
j
(C)的第A维特征值,所述A为所述当前文本向量的当前维特征;所述M
j
(C)与所述当前文本样本属于非同类样本类别,所...

【专利技术属性】
技术研发人员:徐乐乐
申请(专利权)人:武汉斗鱼鱼乐网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1