一种基于深度学习的互联网教育大数据样本序列标注法制造技术

技术编号:30767642 阅读:16 留言:0更新日期:2021-11-10 12:30
本发明专利技术公开了一种基于深度学习的互联网教育大数据样本序列标注法,属于语言处理领域,该标注方法具体步骤如下:(1)抓取未标注数据样本,并进行数据去重;(2)构建学习神经网络,并对其进行测试优化;(3)将数据样本导入神经网络,同时对其进行序列标注;(4)标注数据异常排查,并进行标注规则更新;(5)将标注数据导入云端数据库中,并对其进行分类存储;(6)用户对标注数据进行检索查看,并进行用户评价反馈;本发明专利技术能够对标注数据进行数据纠错,并实时更新标注规则,提高序列标注的准确性,提高标注效率,能够通过用户反馈信息进行数据更新,降低工作人员维护难度,提高工作人员工作效率。效率。效率。

【技术实现步骤摘要】
一种基于深度学习的互联网教育大数据样本序列标注法


[0001]本专利技术涉及语言处理领域,尤其涉及一种基于深度学习的互联网教育大数据样本序列标注法。

技术介绍

[0002]自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,主要是利用人类交流所使用的自然语言与机器进行交互通讯的技术。通过人为的对自然语言的处理,使得计算机对其能够可读并理解。自然语言处理的相关研究始于人类对机器翻译的探索,虽然自然语言处理涉及语音、语法、语义、语用等多维度的操作,但简单而言,自然语言处理的基本任务是基于本体词典、词频统计、上下文语义分析等方式对待处理语料进行分词,形成以最小词性为单位,且富含语义的词项单元,其中,序列标注是一个比较简单的自然语言处理任务,也是最基础的任务,可用于解决一系列对字符进行分类的问题;因此,专利技术出一种基于深度学习的互联网教育大数据样本序列标注法变得尤为重要;
[0003]经检索,中国专利号CN112348108A公开了一种基于众包模式的样本标注方法,该专利技术虽然能够通过适应性标注者选择算法得到置信度满足阈值且成本最低的标注者集,实现对未标注样本可靠且低成本的标注,但是无法进行自行纠错,降低序列标注的准确性,降低标注效率;此外,无法依据用户反馈信息进行数据更新,提高工作人员的维护难度,降低工作人员工作效率;为此,我们提出一种基于深度学习的互联网教育大数据样本序列标注法。

技术实现思路

[0004]本专利技术的目的是为了解决现有技术中存在的缺陷,而提出的一种基于深度学习的互联网教育大数据样本序列标注法。
[0005]为了实现上述目的,本专利技术采用了如下技术方案:
[0006]一种基于深度学习的互联网教育大数据样本序列标注法,该标注方法具体步骤如下:
[0007](1)抓取未标注数据样本,并进行数据去重:抓取其中存储的各科目相关的数据样本,并开始对其进行数据分析,同时进行数据去重处理;
[0008](2)构建学习神经网络,并对其进行测试优化:构建学习神经网络生成测试数据,同时将测试数据导入学习神经网络中,并对学习神经网络进行仿真测试以及优化更新;
[0009](3)将数据样本导入神经网络,对其进行序列标注:将数据样本导入神经网络中,神经网络开始对数据样本进行序列标注,并处理生成标注数据;
[0010](4)标注数据异常排查,并进行标注规则更新:构建数据纠错器,并将标注数据导入数据纠错器中进行纠错记录,同时对标注规则进行更新;
[0011](5)将标注数据导入云端数据库中,并对其进行分类存储:将标注数据上传至云端数据库中,云端数据库开始对标注数据进行分类匹配,同时对其进行有序存储;
[0012](6)用户对标注数据进行检索查看,并进行用户评价反馈:用户通过智能移动设备对标注数据进行检索查看,并对其进行评价,数据标注平台依据用户评价进行数据更新。
[0013]进一步地,步骤(1)中所述去重处理具体步骤如下:
[0014]步骤一:数据标注平台将抓取到的数据样本按照不同年级以及科目进行分类;
[0015]步骤二:分类完成,数据标注平台开始依据年级从低到高对各组数据样本进行重复数据检测;
[0016]步骤三:将检测到的重复数据进行数据对比,并保留语句表达准确的数据样本,将多余数据样本删除。
[0017]进一步地,步骤(2)中所述优化更新具体步骤如下:
[0018]第一步:神经网络接收测试数据,同时开始对其进行进行文本分解;
[0019]第二步:测试数据分解完成,神经网络基于语法产生一个词性序列,同时基于一个字典产生一个基于词性语句的实际语句;
[0020]第三步:神经网络将分解完成的测试数据各部分进行标注,同时进行提取模拟;
[0021]第四步:神经网络开始依据模拟结果进行深度优化。
[0022]进一步地,步骤(3)中所述序列标注具体步骤如下:
[0023]S1:神经网络接收数据样本,并开始依据上传时间先后顺序对各组数据样本进行有序排列;
[0024]S2:神经网络开始依据排列顺序依次对各组数据样本进行数据分解;
[0025]S3:将分解出的各元素进行定位和分类,并对其中命名实体进行识别提取;
[0026]S4:提取完成,开始对各元素进行标注,并将标注完成的数据样本处理生成标注数据。
[0027]进一步地,步骤(4)中所述纠错记录具体步骤如下:
[0028]SS1:数据纠错器对各组标注数据进行语义准确性判断;
[0029]SS2:若标注数据存储语义偏差,数据纠错器开始与互联网进行通信连接,同时对相关标注数据进行数据更新;
[0030]SS3:生成纠错记录表,同时将更新信息录入纠错记录表中,同时将其发送至神经网络,并开始更新标注规则。
[0031]进一步地,步骤(5)中所述有序存储具体步骤如下:
[0032]P1:云端数据库将标注数据依据不同年级以及不同科目进行分类;
[0033]P2:将各组标注数据依据上传时间先后进行有序存储。
[0034]进一步地,步骤(6)中所述数据更新具体步骤如下:
[0035]PP1:用户通过智能移动设备输入检索信息X,数据标注平台接收检索信息X,并开始依据X对云端数据库进行数据抓取;
[0036]PP2:数据标注平台将抓取到的标注数据反馈给用户,用户查看标注数据,并进行满意度反馈;
[0037]PP3:若用户不满意,则反馈用户“请进行数据补充”,用户将补充信息上传至数据标注平台,数据标注平台开始依据补充信息对相应标注数据进行更新。
[0038]进一步地,PP1中所述智能移动设备具体为智能手机、笔记本电脑或平板电脑中的一种。
[0039]相比于现有技术,本专利技术的有益效果在于:
[0040]1、该基于深度学习的互联网教育大数据样本序列标注法通过神经网络对收集到的数据样本进行有序排列,并对其进行分解,同时将分解出的各元素进行定位和分类,并对其中命名实体进行识别提取,同时对各元素进行标注,并生成标注数据,数据纠错器对各组标注数据进行语义准确性判断,若标注数据存储语义偏差,数据纠错器开始对相关标注数据进行数据更新,并生成纠错记录表,同时将更新信息录入纠错记录表中,同时将其发送至神经网络,并开始更新标注规则,能够对标注数据进行数据纠错,并实时更新标注规则,提高序列标注的准确性,提高标注效率;
[0041]2、该基于深度学习的互联网教育大数据样本序列标注法,数据标注平台将纠错完成的标注数据上传至云端数据库,云端数据库将标注数据依据不同年级以及不同科目进行分类,并将各组标注数据依据上传时间先后进行有序存储,用户通过智能移动设备输入检索信息,平台标注平台开始依据检索信息对云端数据库进行数据抓取,数据标注平台将抓取到的标注数据反馈给用户,用户查看标注数据,并进行满意度反馈,若用户不满意,则反馈用户“请进行数据补充”,用户将补充信息上传至数据标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的互联网教育大数据样本序列标注法,其特征在于,该标注方法具体步骤如下:(1)抓取未标注数据样本,并进行数据去重:抓取其中存储的各科目相关的数据样本,并开始对其进行数据分析,同时进行数据去重处理;(2)构建学习神经网络,并对其进行测试优化:构建学习神经网络生成测试数据,同时将测试数据导入学习神经网络中,并对学习神经网络进行仿真测试以及优化更新;(3)将数据样本导入神经网络,对其进行序列标注:将数据样本导入神经网络中,神经网络开始对数据样本进行序列标注,并处理生成标注数据;(4)标注数据异常排查,并进行标注规则更新:构建数据纠错器,并将标注数据导入数据纠错器中进行纠错记录,同时对标注规则进行更新;(5)将标注数据导入云端数据库中,并对其进行分类存储:将标注数据上传至云端数据库中,云端数据库开始对标注数据进行分类匹配,同时对其进行有序存储;(6)用户对标注数据进行检索查看,并进行用户评价反馈:用户通过智能移动设备对标注数据进行检索查看,并对其进行评价,数据标注平台依据用户评价进行数据更新。2.根据权利要求1所述的一种基于深度学习的互联网教育大数据样本序列标注法,其特征在于,步骤(1)中所述去重处理具体步骤如下:步骤一:数据标注平台将抓取到的数据样本按照不同年级以及科目进行分类;步骤二:分类完成,数据标注平台开始依据年级从低到高对各组数据样本进行重复数据检测;步骤三:将检测到的重复数据进行数据对比,并保留语句表达准确的数据样本,将多余数据样本删除。3.根据权利要求1所述的一种基于深度学习的互联网教育大数据样本序列标注法,其特征在于,步骤(2)中所述优化更新具体步骤如下:第一步:神经网络接收测试数据,同时开始对其进行进行文本分解;第二步:测试数据分解完成,神经网络基于语法产生一个词性序列,同时基于一个字典产生一个基于词性语句的实际语句;第三步:神经网络将分解完成的测试数据各部分进行标注,同时进行提取模拟;第四步:神经网络开始依据模拟结果进...

【专利技术属性】
技术研发人员:王晓跃耿晨熙
申请(专利权)人:江苏熙枫教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1