The invention relates to the technical field of computer, provides a method for sampling data, which is characterized in that the method comprises the steps of: determining the data classification rules; the classification rules based on established rules model; the rule model to classify the original data in the corpus based on the calculation accuracy; the classification results; according to the accuracy, the target amount of data sampling to determine the actual sampling number; according to the actual number of samples, from the data after classification in data extraction. Through data sampling method, the original data in the corpus are classified in advance, and the calculation accuracy, to correct the classification results, so that the actual amount of sampling data closer to the training demand model, to a certain extent reduces the probability of data due to data type error model training effect. In addition, a model training method is also provided.
【技术实现步骤摘要】
一种语料数据抽样方法及模型训练方法
本专利技术关于计算机
,尤其涉及一种语料数据抽样方法及模型训练方法。
技术介绍
在人工智能相关的许多技术中,语料库与模型训练都必不可少,又密不可分。语料库是经科学取样和加工的大规模电子文本库,它存放的材料是在语言的实际使用中真实出现过的语言材料,并经过提取和加工过的。设计好的模型需通过大量的语料库的学习、训练,才能实现模型的功能。模型对语料库的学习与训练决定了模型的准确性、公正性等效果,那么从语料库中获取的语料数据的客观性和完整性对模型训练的结果有着很重要的影响。然而,由于语料库中数据的采集是从现实应用场景中提取出来的,考虑到存储容量有限等问题,每个语料库可能只针对有限的实际应用场景去采集语料数据,当然,也有根据模型训练需求,针对特定的场景去采集语料数据,总而言之,语料库中的语料数据是来自于真是的应用场景,例如客服系统、金融体系、法律体系等,如此一来,语料库中的语料数据可能会出现语义类型的偏向。以从智能客服系统的语料数据来看,一般来说,智能客服系统的对话场景中不愉快的对话出现的频率较少,所以正向情感的数据至少占到95%以上 ...
【技术保护点】
一种语料数据抽样方法,其特征在于,所述方法包含步骤:确定语料数据分类规则;基于所述分类规则,建立规则模型;基于所述规则模型对原始语料库中的语料数据进行分类;计算所述分类结果的准确率;根据所述准确率、目标抽样数据量确定实际抽样数量;根据所述实际抽样数量,从分类后的所述语料数据中抽取语料数据。
【技术特征摘要】
1.一种语料数据抽样方法,其特征在于,所述方法包含步骤:确定语料数据分类规则;基于所述分类规则,建立规则模型;基于所述规则模型对原始语料库中的语料数据进行分类;计算所述分类结果的准确率;根据所述准确率、目标抽样数据量确定实际抽样数量;根据所述实际抽样数量,从分类后的所述语料数据中抽取语料数据。2.如权利要求1所述的语料数据抽样方法,其特征在于,所述分类规则包括根据所述语料数据中包含的主题词或标注进行分类。3.如权利要求1所述的语料数据抽样方法,其特征在于,所述基于所述规则模型对原始语料库中的语料数据进行分类包含对所述原始语料库中的部分或全部的语料数据进行分类。4.如权利要求1所述的语料数据抽样方法,其特征在于,所述计算所述分类结果的准备率包含抽取部分所述分类结果,并对其进行检验和计算。5.如权利要求1所述的语料数据抽样方法,其特征在于,所述计算所述分类结果的准确率包含对所述分类结果中的各分类语料数据的分类准确率进行计算。6.如权利要...
【专利技术属性】
技术研发人员:朱敬华,肖龙源,蔡振华,李稀敏,刘晓葳,谭玉坤,
申请(专利权)人:厦门快商通科技股份有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。