一种非结构化试题数据的标注方法、设备及存储介质技术

技术编号:25123598 阅读:46 留言:0更新日期:2020-08-05 02:52
本发明专利技术公开了一种非结构化试题数据的标注方法、设备及存储介质,方法包括步骤:根据自助采样法从试题数据集中抽取若干个无标注数据进行预处理;将预处理后的若干个无标注数据输入至深度学习网络中,并在深度学习网络中输入已标注数据进行校正;将深度学习网络的输出结果分别输入至至少两个不同类型的基分类器中进行集成学习,每个基分类器均包括若干个同一类型的弱学习器和一个强学习器;将所有基分类器中的输出数据构建转移概率矩阵,求解转移概率矩阵,生成标注结果。本发明专利技术提高了标注的准确率,有效解决了试题试卷等非结构化数据的标注问题,以此为基础,可以解决非结构化文本的自动入库问题,可以节省大量的手工劳动。

【技术实现步骤摘要】
一种非结构化试题数据的标注方法、设备及存储介质
本专利技术涉及教育信息化
,特别涉及一种非结构化试题数据的标注方法、设备及存储介质。
技术介绍
随着人工智能的快速发展,需要做数据标注的数据也越来越多。比如我们希望人工智能机器人可以识别一张照片里面是不是大熊猫,那么首先需要收集一批的包含有大熊猫的照片,然后通过人工对这批照片进行标注,标注的内容就是哪些照片是大熊猫的照片,哪些照片不是大熊猫的照片,然后把这些已经完成标注的内容和照片数据喂给人工智能程序,让其进行深度学习,当人工智能机器人完成深度学习后,当出现一张新的照片时,这个程序就可以完成智能识别,哪一张是大熊猫的照片,哪一张不是大熊猫的照片。结构化数据:结构化数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。如身份证号码、姓名、年龄、性别这类的数据。非结构化数据:非结构化数据是指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。如word文档、文本本文档来自技高网...

【技术保护点】
1.一种非结构化试题数据的标注方法,其特征在于,包括以下步骤:/n根据自助采样法从试题数据集中抽取若干个无标注数据进行预处理;/n将预处理后的若干个所述无标注数据输入至深度学习网络中,并在所述深度学习网络中输入已标注数据进行校正;/n将所述深度学习网络的输出结果分别输入至至少两个不同类型的基分类器中进行集成学习,每个所述基分类器均包括若干个同一类型的弱学习器和一个强学习器;/n将所有所述基分类器中的输出数据构建转移概率矩阵,求解所述转移概率矩阵,生成标注结果。/n

【技术特征摘要】
1.一种非结构化试题数据的标注方法,其特征在于,包括以下步骤:
根据自助采样法从试题数据集中抽取若干个无标注数据进行预处理;
将预处理后的若干个所述无标注数据输入至深度学习网络中,并在所述深度学习网络中输入已标注数据进行校正;
将所述深度学习网络的输出结果分别输入至至少两个不同类型的基分类器中进行集成学习,每个所述基分类器均包括若干个同一类型的弱学习器和一个强学习器;
将所有所述基分类器中的输出数据构建转移概率矩阵,求解所述转移概率矩阵,生成标注结果。


2.根据权利要求1所述的一种非结构化试题数据的标注方法,其特征在于,所述深度学习网络为BiLSTM网络。


3.根据权利要求1或2所述的一种非结构化试题数据的标注方法,其特征在于,所述基分类器包括:基于条件随机场的基分类器、基于结构化支持向量机的基分类器以及基于最大间隔马尔可夫网的基分类器。

【专利技术属性】
技术研发人员:杨颂
申请(专利权)人:天闻数媒科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1