一种智能识别不当文本交互的方法、装置和电子设备制造方法及图纸

技术编号：27685567 阅读：12 留言：0更新日期：2021-03-17 03:52

本发明专利技术属于教育领域，提供一种智能识别不当文本交互的方法、装置、电子设备，该方法通过构建初始目标识别模型，使用所述训练数据集对所述初始目标识别模型进行多轮训练，并进行与该多轮训练相对应的多次采样，得到最终目标识别模型，以计算当前交互文本的不当程度预测值，基于所计算的预测值，判断所述当前老师与学员的文本交互是否属于不当交互文本。本发明专利技术能够更有效、更及时地识别不当交互文本数据，并能够实现更充分、更合理的标注样本数据，还能够有效实现少量样本的富集。

全部详细技术资料下载

【技术实现步骤摘要】
一种智能识别不当文本交互的方法、装置和电子设备
本专利技术属于教育领域，特别适用于线上教育领域，更具体的是涉及一种智能识别不当文本交互的方法、装置和电子设备。
技术介绍
随着互联网络的发展，越来越多的网络课程涌现，老师通过网络授课或在线课堂来传授知识成为了重要的学习方式。然而，在现有的一部分在线教育系统中，在具体课程学习过程中，通常存在老师与学员的交互过程。但是，从大量现有交互文本数据中，发现老师与学员的交互文本数据中存在一些不当交互文本，并且这种不当交互文本对老师或学员甚至在线教育平台造成了很严重的不良影响。此外，这种不当交互文本的数据量比较小，由此与这种不当交互文本相关的正、负样本显著不均匀的问题，导致难以更精确地识别所述不当交互文本。因此，如何更及时、更有效地识别上述这种不当交互文本是非常值得去研究的问题。因此，有必要提供一种智能识别不当文本交互的方法，以解决上述问题。
技术实现思路
(一)要解决的技术问题本专利技术旨在解决在线课程应用场中正样本和负样本的分布显著不均匀，不能及时、有效识别老师和学员的不当交互文本，以及难以标注充分等问题。(二)技术方案为解决上述技术问题，本专利技术的一方面提出一种智能识别不当文本交互的方法，其用于识别交互数据中的不当文本交互，所述方法包括如下步骤：设定关键词集，所述关键词集包括多个非正常表现词，该非正常表现词用于表示老师和学员的不当交互；使用所述关键词集，在语料库中进行检索，筛选初始样本，该初始样本包括初始正样本和初始...

【技术保护点】
1.一种智能识别不当文本交互的方法，其用于识别交互数据中的不当文本交互，其特征在于，所述方法包括如下步骤：/n设定关键词集，所述关键词集包括多个非正常表现词，该非正常表现词用于表示老师和学员的不当交互；/n使用所述关键词集，在语料库中进行检索，筛选初始样本，该初始样本包括初始正样本和初始负样本；/n利用所述初始样本，建立训练数据集，该训练数据集包括历史老师的交互文本向量和历史表现评分；/n构建初始目标识别模型，使用所述训练数据集对所述初始目标识别模型进行多轮训练，并进行与该多轮训练相对应的多次采样，以得到最终目标识别模型；/n获取当前老师与学员的交互文本的数据，得到交互文本向量，并使用所述最终目标识别模型，计算所述当前交互文本的不当程度预测值；/n基于所计算的预测值，判断所述当前老师与学员的文本交互是否属于不当交互文本。/n

【技术特征摘要】
1.一种智能识别不当文本交互的方法，其用于识别交互数据中的不当文本交互，其特征在于，所述方法包括如下步骤：
设定关键词集，所述关键词集包括多个非正常表现词，该非正常表现词用于表示老师和学员的不当交互；
使用所述关键词集，在语料库中进行检索，筛选初始样本，该初始样本包括初始正样本和初始负样本；
利用所述初始样本，建立训练数据集，该训练数据集包括历史老师的交互文本向量和历史表现评分；
构建初始目标识别模型，使用所述训练数据集对所述初始目标识别模型进行多轮训练，并进行与该多轮训练相对应的多次采样，以得到最终目标识别模型；
获取当前老师与学员的交互文本的数据，得到交互文本向量，并使用所述最终目标识别模型，计算所述当前交互文本的不当程度预测值；
基于所计算的预测值，判断所述当前老师与学员的文本交互是否属于不当交互文本。

2.根据权利要求1所述的智能识别不当文本交互的方法，其特征在于，所述使用所述训练数据集对所述初始目标识别模型进行多轮训练，并进行与该多轮训练相对应的多次采样包括：
使用初始样本对所述初始目标识别模型进行第一轮训练；
利用该第一轮训练好的目标识别模型，对所有初始样本进行计算，并根据计算结果进行排序，以计算下一轮的采样数量。

3.根据权利要求1或2所述的智能识别不当文本交互的方法，其特征在于，
从第二轮模型训练起，分别计算采样数量和标注数量，以更新每一轮的所述初始样本中的正样本的数量，直到评估指标等于特定阈值或者在特定范围内，所述正样本为老师和学员的交互文本中包含不当交互文本且不当程度大于特定值的样本，所述负样本为老师和学员的交互文本中未包含不当交互文本的样本。

4.根据权利要求1-3任一所述的智能识别不当文本交互的方法，其特征在于，包括：
所述评估指标包括准确率和/或召回率。

5.根据权利要求1-4任一所述的智能识别不当文本交互的方法，其特征在于，还包括：
根据所计算的采样数量，确定采样的分层数量，对所有初始样本进行分层，并按照标注数量逐层标注；
分别计算每一层样本标注后的准确率和召回率。

6.根据权利要求1-5任一所述的智能识别不当文本交互的方法，其特征在于，所述获取当前老师与学员的交互文本的数据，得到交互文本向量包括：
根据所述关键词集，使用TF-I...

【专利技术属性】
技术研发人员：任帅，王博弘，张振，蒋宏飞，宋旸，王瑞阳，王阳，赵慧娟，
申请(专利权)人：作业帮教育科技北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人