数据标注系统及数据标注方法技术方案

技术编号:30707986 阅读:1166 留言:0更新日期:2021-11-10 10:59
本公开涉及一种数据标注系统及一种数据标注方法,该数据标注方法包含下列步骤:建立标注规范,根据标注规范产生至少一个问题;通过终端装置,根据问题在文字文件中标注至少一个答案;根据标注格式,将问题及答案转换为标注数据;判断标注数据中的问题的数量是否大于或等于门槛值;若问题的数量大于或等于门槛值,根据标注数据产生阅读理解数据集。根据标注数据产生阅读理解数据集。根据标注数据产生阅读理解数据集。

【技术实现步骤摘要】
数据标注系统及数据标注方法


[0001]本公开内容关于一种数据标注系统,其能对文字文件进行标注,并根据标注后的结果调整数据分析模型。

技术介绍

[0002]在机器学习与深度学习领域中,电脑利用数据分析模型对文件进行分析与解读。由于数据分析模型的建立需要大量的训练数据,而训练数据的品质好坏对于模型的准确率至关重要。因此,在不耗费大量成本的情境下,要如何有效率且有系统地整合训练数据,将是一个值得探究的重要课题。

技术实现思路

[0003]本公开内容的一实施例为一种数据标注方法,包括下列步骤:建立标注规范,根据标注规范产生至少一个问题。通过终端装置,根据问题在文字文件中标注至少一个答案。根据标注格式,将些问题及答案转换为标注数据。判断标注数据中的问题的数量是否大于或等于门槛值。若问题的数量大于或等于门槛值,根据标注数据产生阅读理解数据集。
[0004]本公开内容的一实施例为一种数据标注方法,包括下列步骤:通过终端装置,根据标注规范在原始数据中标注至少一组分析数据,其中每一组分析数据包含至少一个问题及至少一答案。根据标注格式,将本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法,包括:建立一标注规范,根据该标注规范产生至少一个问题;通过一终端装置,根据该问题在一文字文件中标注至少一个答案;根据一标注格式,将该问题及该答案转换为一标注数据;判断该标注数据中的该至少一个问题的数量是否大于或等于一门槛值;以及若该至少一个问题的数量大于或等于该门槛值,根据该标注数据产生一阅读理解数据集。2.如权利要求1所述的数据标注方法,还包括:通过一服务器,将该阅读理解数据集作为一数据分析模型的一训练数据,以对该数据分析模型进行训练。3.如权利要求1所述的数据标注方法,其中每一个该问题对应于一个该答案,该数据标注方法还包括:通过该终端装置,根据该问题,取得该文字文件中的一段文字内容。4.如权利要求3所述的数据标注方法,还包含:在该文字内容中,标注该答案的一出现位置。5.如权利要求1所述的数据标注方法,其中该终端装置根据一文意解析参数标注该至少一个问题,该数据标注方法还包含:判断该标注数据是否符合该标注规范;在该标注数据不符合该标注规范的情况下,调整该文意解析参数;以及根据该标注规范及该文意解析参数,更新该至少一个问题。6.一种数据标注方法,包括:通过一终端装置,根据一标注规范在一原始数据中标注至少一组分析数据,其中每一组分析数据包含一个问题及一答案;根据一标注格式,将所述分析数据转换为一标注数据;通过一服务器,判断该标注数据中的所述分析数据的数量是否大于一门槛值;以及将该标注数据作为一数据分析模型的一训练数据,以对该数据分析模型进行训练。7.如权利要求6所述的数据标注方法,其中该原始数据包含一文字文件,该数据标注方法还包括:通过该终端装置,根据该至少一组分析数据中的该问题,取得该文字文件中的一段文字内容。8.如权利要求7所述的数据标注方法,还包含:通过该终端装置,标注该至少一组分析数据中的该答案于该文字内容的一出现位置。9.如权利要求7所述的数据标注方法,...

【专利技术属性】
技术研发人员:邵志杰刘正邦
申请(专利权)人:台达电子工业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1