语料标注集的生成方法及装置、电子设备、存储介质制造方法及图纸

技术编号:22055190 阅读:48 留言:0更新日期:2019-09-07 15:14
本发明专利技术揭示了一种语料标注集的生成方法及装置、电子设备、计算机可读存储介质。本发明专利技术提供的技术方案,通过从查询日志中获得待标注语料集,获取多方对该语料集中查询语句的标注结果,筛选出标注结果相似的查询语句,进而由这些查询语句及其对应的标注结果构成语料标注集。由于语料标注集的查询语句属于多方标注结果相似的查询语句,所以语料标注集中查询语句的标注结果存在分歧的可能性较小,标注结果的准确性较高,进而将该准确性较高的语料标注集作为训练集进行意图识别模型等数据分析模型的训练,可以提高数据分析模型的准确性。

Generation Method and Device of Corpus Annotation Set, Electronic Equipment and Storage Media

【技术实现步骤摘要】
语料标注集的生成方法及装置、电子设备、存储介质
本专利技术涉及计算机
,特别涉及一种语料标注集的生成方法及装置、电子设备、计算机可读存储介质。
技术介绍
在语音交互领域,主要是通过各种数据分析模型对用户输入的查询语句进行在线分析,识别用户意图,为用户提供精准的答复。而数据分析模型是通过对已标注的大量查询语句(简称训练集)进行训练得到的。所以,训练集中查询语句标注结果的准确性,直接影响了数据分析模型的准确,决定了语音交互功能的智能化水平。目前,主要通过标注人员对查询语句进行人工标注。例如,标注出查询语句的查询意图(包括闲聊意图、音乐点播意图、天气查询意图等等)。所以标注人员的认知水平决定了查询语句的标注准确性。由于标注人员的认知水平可能与常人的认知程度不同,或者对某个查询语句的认知存在偏差,因此很容易使训练集所包含的查询语句标注不准确,进而造成训练得到的数据分析模型误差较大,无法为用户提供精准的答复。
技术实现思路
为了解决相关技术中存在的由于标注人员的认知存在偏差,导致训练集中查询语句的标注结果不准确的问题,本专利技术提供了一种语料标注集的生成方法。一方面,本专利技术提供了一种语料本文档来自技高网...

【技术保护点】
1.一种语料标注集的生成方法,其特征在于,包括:获取查询日志;所述查询日志包括查询语句;从所述查询日志中进行待标注查询语句的提取,获得待标注语料集;获取多方对所述待标注语料集中查询语句的标注结果;根据多方对同一查询语句的标注结果,从所述待标注语料集中筛选出标注结果相似的查询语句;由所述标注结果相似的查询语句与对应的标注结果,生成语料标注集。

【技术特征摘要】
1.一种语料标注集的生成方法,其特征在于,包括:获取查询日志;所述查询日志包括查询语句;从所述查询日志中进行待标注查询语句的提取,获得待标注语料集;获取多方对所述待标注语料集中查询语句的标注结果;根据多方对同一查询语句的标注结果,从所述待标注语料集中筛选出标注结果相似的查询语句;由所述标注结果相似的查询语句与对应的标注结果,生成语料标注集。2.根据权利要求1所述的方法,其特征在于,所述从所述查询日志中进行待标注查询语句的提取,获得待标注语料集,包括:去除所述查询日志中不满足预设条件的查询语句;将所述查询日志中剩余的查询语句,输入已构建的多个标签预测模型,输出多个标签预测模型对同一查询语句的标签预测结果;所述多个标签预测模型通过采用不同的训练样本集训练得到;根据所述多个标签预测模型对同一查询语句的标签预测结果,从所述剩余的查询语句中筛选出标签预测结果不一致的查询语句,得到所述待标注语料集。3.根据权利要求2所述的方法,其特征在于,所述去除所述查询日志中不满足预设条件的查询语句,包括:通过已构建的分类器对所述查询日志中记录的查询语句进行分类,并去除分类得到的无意义的查询语句。4.根据权利要求2所述的方法,其特征在于,所述去除所述查询日志中不满足预设条件的查询语句,包括:根据已标注的查询语句集合,去除所述查询日志中已标注的查询语句以及与已标注查询语句相似的查询语句。5.根据权利要求2所述的方法,其特征在于,所述去除所述查询日志中不满足预设条件的查询语句,包括:去除所述查询日志中仅包含单个实体词的查询语句、语句长度大于预设字符数量的查询语句或者重复的查询语句。6.根据权利要求1所述的方法,其特征在于,所述获取对所述待标注语料集中查询语句的标注结果,包括:向多方派发对所述待标注语料集的标注任务,所述标注任务的派发,触发多方并行执行所述标注任务;接收多方并行执行所述标注任务返回的标注结果。7.根据权利要求6所述的方法,其特征在于,所述标注任务的派发,触发多方并行执行所述标注任务,包括:所述标注任务的派发,触发多方并行将所述待标注语料集输入自身配置的标注模型,输出各自对所述待标注语料集的标注结果;其中,多方配置的标注模型采用不同的训练样本集训练得到。8.根据权利要求1所述的方法,其特征在于,所述待标注语料集包括已知标签信息的多条埋点语句;所述根据多方对同一查询语句的标注结果,从所述待标注语料集中筛选出标注结果相似的查询语句,包括:根据多方对所述多条埋点语句的标注结果,比较所述多条埋点语句的标注结果与对应标签信息是否一致,计算得到多方标注结果的准确率;根据所述多方标注结果的准确率,从多方来源...

【专利技术属性】
技术研发人员:陆笛
申请(专利权)人:腾讯科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1