一种智能识别不当文本交互的方法、装置和电子设备制造方法及图纸

技术编号:27685567 阅读:12 留言:0更新日期:2021-03-17 03:52
本发明专利技术属于教育领域,提供一种智能识别不当文本交互的方法、装置、电子设备,该方法通过构建初始目标识别模型,使用所述训练数据集对所述初始目标识别模型进行多轮训练,并进行与该多轮训练相对应的多次采样,得到最终目标识别模型,以计算当前交互文本的不当程度预测值,基于所计算的预测值,判断所述当前老师与学员的文本交互是否属于不当交互文本。本发明专利技术能够更有效、更及时地识别不当交互文本数据,并能够实现更充分、更合理的标注样本数据,还能够有效实现少量样本的富集。

【技术实现步骤摘要】
一种智能识别不当文本交互的方法、装置和电子设备
本专利技术属于教育领域,特别适用于线上教育领域,更具体的是涉及一种智能识别不当文本交互的方法、装置和电子设备。
技术介绍
随着互联网络的发展,越来越多的网络课程涌现,老师通过网络授课或在线课堂来传授知识成为了重要的学习方式。然而,在现有的一部分在线教育系统中,在具体课程学习过程中,通常存在老师与学员的交互过程。但是,从大量现有交互文本数据中,发现老师与学员的交互文本数据中存在一些不当交互文本,并且这种不当交互文本对老师或学员甚至在线教育平台造成了很严重的不良影响。此外,这种不当交互文本的数据量比较小,由此与这种不当交互文本相关的正、负样本显著不均匀的问题,导致难以更精确地识别所述不当交互文本。因此,如何更及时、更有效地识别上述这种不当交互文本是非常值得去研究的问题。因此,有必要提供一种智能识别不当文本交互的方法,以解决上述问题。
技术实现思路
(一)要解决的技术问题本专利技术旨在解决在线课程应用场中正样本和负样本的分布显著不均匀,不能及时、有效识别老师和学员的不当交互文本,以及难以标注充分等问题。(二)技术方案为解决上述技术问题,本专利技术的一方面提出一种智能识别不当文本交互的方法,其用于识别交互数据中的不当文本交互,所述方法包括如下步骤:设定关键词集,所述关键词集包括多个非正常表现词,该非正常表现词用于表示老师和学员的不当交互;使用所述关键词集,在语料库中进行检索,筛选初始样本,该初始样本包括初始正样本和初始负样本;利用所述初始样本,建立训练数据集,该训练数据集包括历史老师的交互文本向量和历史表现评分;构建初始目标识别模型,使用所述训练数据集对所述初始目标识别模型进行多轮训练,并进行与该多轮训练相对应的多次采样,以得到最终目标识别模型;获取当前老师与学员的交互文本的数据,得到交互文本向量,并使用所述最终目标识别模型,计算所述当前交互文本的不当程度预测值;基于所计算的预测值,判断所述当前老师与学员的文本交互是否属于不当交互文本。根据本专利技术的优选实施方式,所述使用所述训练数据集对所述初始目标识别模型进行多轮训练,并进行与该多轮训练相对应的多次采样包括:使用初始样本对所述初始目标识别模型进行第一轮训练;利用该第一轮训练好的目标识别模型,对所有初始样本进行计算,并根据计算结果进行排序,以计算下一轮的采样数量。根据本专利技术的优选实施方式,从第二轮模型训练起,分别计算采样数量和标注数量,以更新每一轮的所述初始样本中的正样本的数量,直到评估指标等于特定阈值或者在特定范围内,所述正样本为老师和学员的交互文本中包含不当交互文本且不当程度大于特定值的样本,所述负样本为老师和学员的交互文本中未包含不当交互文本的样本。根据本专利技术的优选实施方式,包括:所述评估指标包括准确率和/或召回率。根据本专利技术的优选实施方式,还包括:根据所计算的采样数量,确定采样的分层数量,对所有初始样本进行分层,并按照标注数量逐层标注;分别计算每一层样本标注后的准确率和召回率。根据本专利技术的优选实施方式,所述获取当前老师与学员的交互文本的数据,得到交互文本向量包括:根据所述关键词集,使用TF-IDF方法,对所获取的当前老师与学员的交互文本的数据进行过滤筛选,以得到包含非正常表现词的相关文本数据;对所得到的相关文本数据进行分词,并进行向量转换,以得到不当交互文本的向量。根据本专利技术的优选实施方式,还包括:使用线上的老师与学员的文本交互数据,建立测试数据集,对所述最终目标识别模型进行测试,计算测试数据集的实际准确率、实际召回率;使用初始样本,建立验证数据集,对所述最终目标识别模型进行验证,计算验证数据集的验证准确率、验证召回率;将所述实际准确率、所述实际召回率分别与所述验证准确率、所述验证召回率进行比较,以判断是否一致。根据本专利技术的优选实施方式,所述基于所计算的预测值,判断所述当前老师与学员的文本交互是否属于不当交互文本包括:预设识别阈值;将所计算的预测值与所述识别阈值进行比较,以判断所述当前老师与学员的文本交互是否属于不当交互文本。本专利技术第二方面提出一种智能识别不当文本交互的装置,其用于识别交互数据中的不当文本交互,所述装置包括:设定模块,用于设定关键词集,所述关键词集包括多个非正常表现词,该非正常表现词用于表示老师和学员的不当交互;筛选模块,用于使用所述关键词集,在语料库中进行检索,筛选初始样本,该初始样本包括初始正样本和初始负样本;建立模块,用于利用所述初始样本,建立训练数据集,该训练数据集包括历史老师的交互文本向量和历史表现评分;模型构建模块,用于构建初始目标识别模型,使用所述训练数据集对所述初始目标识别模型进行多轮训练,并进行与该多轮训练相对应的多次采样,以得到最终目标识别模型;计算模块,用于获取当前老师与学员的交互文本的数据,得到交互文本向量,并使用所述最终目标识别模型,计算所述当前交互文本的不当程度预测值;判断模块,用于基于所计算的预测值,判断所述当前老师与学员的文本交互是否属于不当交互文本。根据本专利技术的优选实施方式,还包括处理模块,所述处理模块用于使用初始样本对所述初始目标识别模型进行第一轮训练;利用该第一轮训练好的目标识别模型,对所有初始样本进行计算,并根据计算结果进行排序,以计算下一轮的采样数量。根据本专利技术的优选实施方式,还包括:从第二轮模型训练起,分别计算采样数量和标注数量,以更新每一轮的所述初始样本中的正样本的数量,直到评估指标等于特定阈值或者在特定范围内,所述正样本为老师和学员的交互文本中包含不当交互文本且不当程度大于特定值的样本,所述负样本为老师和学员的交互文本中未包含不当交互文本的样本。根据本专利技术的优选实施方式,包括:所述评估指标包括准确率和/或召回率。根据本专利技术的优选实施方式,还包括:根据所计算的采样数量,确定采样的分层数量,对所有初始样本进行分层,并按照标注数量逐层标注;分别计算每一层样本标注后的准确率和召回率。根据本专利技术的优选实施方式,所述筛选模块还包括:根据所述关键词集,使用TF-IDF方法,对所获取的当前老师与学员的交互文本的数据进行过滤筛选,以得到包含非正常表现词的相关文本数据;对所得到的相关文本数据进行分词,并进行向量转换,以得到不当交互文本的向量。根据本专利技术的优选实施方式,还包括比较模块,所述比较模块用于比较平价指标以进行判断,其中,使用线上的老师与学员的文本交互数据,建立测试数据集,对所述最终目标识别模型进行测试,计算测试数据集的实际准确率、实际召回率;使用初始样本,建立验证数据集,对所述最终目标识别模型进行验证,计算验证数据集的验证准确率、验证召回率;将所述实际准确率、所述实际召回率分别与所述验证准确率、所述验证召回率进行比较,以判断是否一致。根据本专利技术的优选实施方式,还包括:预设识别阈值;将所计算的预测值与所述识别阈值进行比较,以判断所述当前老师与学员的文本交互是否属于不当交互文本。本专利技术第三方面提出一种电子设备,包括处理器和存储器,所述本文档来自技高网...

【技术保护点】
1.一种智能识别不当文本交互的方法,其用于识别交互数据中的不当文本交互,其特征在于,所述方法包括如下步骤:/n设定关键词集,所述关键词集包括多个非正常表现词,该非正常表现词用于表示老师和学员的不当交互;/n使用所述关键词集,在语料库中进行检索,筛选初始样本,该初始样本包括初始正样本和初始负样本;/n利用所述初始样本,建立训练数据集,该训练数据集包括历史老师的交互文本向量和历史表现评分;/n构建初始目标识别模型,使用所述训练数据集对所述初始目标识别模型进行多轮训练,并进行与该多轮训练相对应的多次采样,以得到最终目标识别模型;/n获取当前老师与学员的交互文本的数据,得到交互文本向量,并使用所述最终目标识别模型,计算所述当前交互文本的不当程度预测值;/n基于所计算的预测值,判断所述当前老师与学员的文本交互是否属于不当交互文本。/n

【技术特征摘要】
1.一种智能识别不当文本交互的方法,其用于识别交互数据中的不当文本交互,其特征在于,所述方法包括如下步骤:
设定关键词集,所述关键词集包括多个非正常表现词,该非正常表现词用于表示老师和学员的不当交互;
使用所述关键词集,在语料库中进行检索,筛选初始样本,该初始样本包括初始正样本和初始负样本;
利用所述初始样本,建立训练数据集,该训练数据集包括历史老师的交互文本向量和历史表现评分;
构建初始目标识别模型,使用所述训练数据集对所述初始目标识别模型进行多轮训练,并进行与该多轮训练相对应的多次采样,以得到最终目标识别模型;
获取当前老师与学员的交互文本的数据,得到交互文本向量,并使用所述最终目标识别模型,计算所述当前交互文本的不当程度预测值;
基于所计算的预测值,判断所述当前老师与学员的文本交互是否属于不当交互文本。


2.根据权利要求1所述的智能识别不当文本交互的方法,其特征在于,所述使用所述训练数据集对所述初始目标识别模型进行多轮训练,并进行与该多轮训练相对应的多次采样包括:
使用初始样本对所述初始目标识别模型进行第一轮训练;
利用该第一轮训练好的目标识别模型,对所有初始样本进行计算,并根据计算结果进行排序,以计算下一轮的采样数量。


3.根据权利要求1或2所述的智能识别不当文本交互的方法,其特征在于,
从第二轮模型训练起,分别计算采样数量和标注数量,以更新每一轮的所述初始样本中的正样本的数量,直到评估指标等于特定阈值或者在特定范围内,所述正样本为老师和学员的交互文本中包含不当交互文本且不当程度大于特定值的样本,所述负样本为老师和学员的交互文本中未包含不当交互文本的样本。


4.根据权利要求1-3任一所述的智能识别不当文本交互的方法,其特征在于,包括:
所述评估指标包括准确率和/或召回率。


5.根据权利要求1-4任一所述的智能识别不当文本交互的方法,其特征在于,还包括:
根据所计算的采样数量,确定采样的分层数量,对所有初始样本进行分层,并按照标注数量逐层标注;
分别计算每一层样本标注后的准确率和召回率。


6.根据权利要求1-5任一所述的智能识别不当文本交互的方法,其特征在于,所述获取当前老师与学员的交互文本的数据,得到交互文本向量包括:
根据所述关键词集,使用TF-I...

【专利技术属性】
技术研发人员:任帅王博弘张振蒋宏飞宋旸王瑞阳王阳赵慧娟
申请(专利权)人:作业帮教育科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1