【技术实现步骤摘要】
获取槽位标注数据的方法、装置、电子设备及介质
[0001]本申请中涉及数据处理技术,尤其是一种获取槽位标注数据的方法、装置、电子设备及介质。
技术介绍
[0002]相关技术中,槽位识别(包含实体识别、关键词识别等)需要人工标注数据用于训练、评估和测试,而可靠、稳健的识别模型往往需要较大的数据量,特别是对于槽位类别多的任务而言。人工标注往往存在不一致问题。
[0003]具体来讲,在槽位识别中,集中于边界判定不一致和类别判定不一致,这样的问题会损害数据质量,降低标注有效性。因此,如何设计一种能够高效识别文档中标注数据的方法,成为了需要解决的问题。
技术实现思路
[0004]本申请实施例提供一种获取槽位标注数据的方法、装置、电子设备及介质。从而解决相关技术中出现的,对文档中待标注数据的边界判定不一致和类别判定不一致所导致的标注效率不高的问题。
[0005]其中,根据本申请实施例的一个方面,提供的一种获取槽位标注数据的方法,包括:
[0006]获取待标注文本中包含的所有完整槽位信息,所述完整槽 ...
【技术保护点】
【技术特征摘要】
1.一种获取槽位标注数据的方法,其特征在于,包括:获取待标注文本中包含的所有完整槽位信息,所述完整槽位信息包括槽位、所述槽位上承载的槽位内容以及槽位类别标签,所述槽位类别标签用于表征所述槽位内容的所属类别;基于所述槽位类别标签,确定所述完整槽位信息的边界词;确定每个完整槽位信息中,所述边界词到所述槽位的数量分布值以及概率分布值;选取所述概率分布值中,数值大于预设阈值的完整槽位信息对应的槽位内容作为所述待标注文本的标注数据。2.如权利要求1所述的方法,其特征在于,所述基于所述槽位类别标签,确定所述完整槽位信息的边界词,包括:将所述槽位类别标签中,位于所述槽位左侧的类别标签确定为所述完整槽位信息的左类别标签;以及,将所述槽位类别标签中,位于所述槽位右侧的类别标签确定为所述完整槽位信息的右类别标签;基于所述完整槽位信息的所述左类别标签以及所述右类别标签,确定所述完整槽位信息的边界词,所述边界词包括左边界词以及右边界词。3.如权利要求2所述的方法,其特征在于,所述基于所述完整槽位信息的所述左类别标签以及所述右类别标签,确定所述完整槽位信息的边界词,包括:将所述完整槽位信息中,邻近所述左类别标签的左侧第一个字段作为所述完整槽位信息的所述左边界词;以及,将所述完整槽位信息中,邻近所述右类别标签的右侧第一个字段作为所述完整槽位信息的所述右边界词。4.如权利要求1所述的方法,其特征在于,所述确定每个完整槽位信息中,所述边界词到所述槽位的数量分布值,包括:确定每个完整槽位信息的所述左边界词与所述右类别标签之间包含的第一数量的槽位字段;以及,确定每个完整槽位信息的所述右边界词与所述左类别标签之间包含的第二数量的槽位字段;将所述第一数量与所述第二数量作为所述完整槽位信息中对应的数量分布值。5.如权利要求4所述的方法,其特征在于,所述将所述第一数量与所述第二数量作为所述完整槽位信息中对应的数量分布值,包括:检...
【专利技术属性】
技术研发人员:薛景元,
申请(专利权)人:北京明略昭辉科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。