【技术实现步骤摘要】
基于人工智能的数据批量标注方法及相关设备
[0001]本申请涉及人工智能
,尤其涉及一种基于人工智能的数据批量标注方法、装置、电子设备及存储介质。
技术介绍
[0002]数据标注是在数据分析行业中的重要一环,通过数据标注得到数据标签可以准确描述业务实体的特征,随着大数据时代的到来,人工标注的方法已经不能满足庞大的数据量,如何实现数据批量化的快速标注成为行业的焦点。
[0003]目前,通常利用无监督的聚类算法对数据进行分类,再基于分类结果对同一类的数据进行标注以实现数据的批量标注,然而,由于不同标签的标注逻辑不同,这种方法不能适应不同标签的标注逻辑,数据批量标注的准确性较低。
技术实现思路
[0004]鉴于以上内容,有必要提出一种基于人工智能的数据批量标注方法及相关设备,以解决如何提高数据批量标注的准确性这一技术问题,其中,相关设备包括基于人工智能的数据批量标注装置、电子设备及存储介质。
[0005]本申请基于人工智能的数据批量标注方法,所述方法包括:
[0006]获取待标注数据, ...
【技术保护点】
【技术特征摘要】
1.一种基于人工智能的数据批量标注方法,其特征在于,所述方法包括:获取待标注数据,并依据预设维度查询所述待标注数据得到每一个预设维度的维度数据集,所述维度数据集中包括每一个待标注数据的数据ID和所述维度的维度值;基于数值型维度值的占比对所述维度数据集进行分类得到分类结果,所述分类结果包括数值型维度数据集和非数值型维度数据集;当所述分类结果为非数值型维度数据集时,依据预设的损失函数和所述非数值型维度数据集训练映射模型;基于映射模型将所述非数值型维度数据集映射为数值型维度数据集;依据预设计算模型计算所有数值型维度数据集中的维度值得到每一个待标注数据的标准属性值;依据预设标签类型和所述标准属性值对待标注数据进行标注以获取标注结果,所述标签类型包括数值标签和排名标签。2.如权利要求1所述的基于人工智能的数据批量标注方法,其特征在于,所述基于数值型维度值的占比对所述维度数据集进行分类得到分类结果,包括:计算每一个维度数据集中数值型维度值数量的占比;若所述占比等于1,则所述维度数据集的分类结果为数值型维度数据集;若所述占比不等于1,则所述维度数据集的分类结果为非数值型维度数据集。3.如权利要求1所述的基于人工智能的数据批量标注方法,其特征在于,所述依据预设的损失函数和所述非数值型维度数据集训练映射模型,包括:搭建映射模型,所述映射模型由LSTM模型和全连接层串联而成;挑选所述非数值型维度数据集中任意两个维度值构成样本对,并基于两个维度值的内容获取所述样本对的标签;将所有样本对以及所述样本对的标签作为训练数据集;依据预设的损失函数和所述训练数据集训练所述映射模型。4.如权利要求3所述的基于人工智能的数据批量标注方法,其特征在于,所述依据预设的损失函数和所述训练数据集训练所述映射模型包括:搭建结构相同且参数共享的两个映射模型;将每组样本对中的两个维度值同时输入两个映射模型中得到第一输出结果和第二输出结果;基于预设的损失函数计算所述第一输出结果和所述第二输出结果以获取所述映射模型的损失值;基于梯度下降法不断迭代更新所述映射模型中的参数以获取新的损失值,直到损失函数的数值不再降低时停止迭代,完成训练。5.如权利要求4所述的基于人工智能的数据批量标注方法,其特征在于,所述预设的损失函数满足关系式:其中,N为训练过程中一个批次数据的数据量,即输入N组样本对后计算一次损失函数
值;为第i组样本对的标签,取值为0或1;D
i
为第i组样本对中第一输出结果和第二输出结果的欧式距离,满足关系式:Y为预设阈值,所述预设阈值越大表示不同类别的维度值对应的输出结果之间差异越大,所述预设阈值的取值为0.05。6.如权利要求1所述的基于人工智能的数据批量标注方法,其特征在于,所述预设计算模型满足关系式:其中,M表示标签对...
【专利技术属性】
技术研发人员:熊汉,
申请(专利权)人:平安国际智慧城市科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。