【技术实现步骤摘要】
待标注文本的确定方法、装置、设备和存储介质
[0001]本公开涉及计算机
,具体涉及自然语言处理、机器学习、智能阅读理解、智能问答等人工智能领域,尤其涉及一种待标注文本的确定方法、装置、设备和存储介质。
技术介绍
[0002]自然语言处理领域的机器学习依赖高质量的标注数据。为了降低标注成本、提高标注效率,需要选择合适的待标注文本。
技术实现思路
[0003]本公开提供了一种待标注文本的确定方法、装置、设备和存储介质。
[0004]根据本公开的一方面,提供了一种待标注文本的确定方法,包括:获取多条文本;基于预设问题,对所述多条文本中各条文本进行处理,以获得所述各条文本针对所述预设问题的预测答案的置信度,所述置信度用于表明所述预测答案为真实答案的概率值;基于所述各条文本针对所述预设问题的预测答案的置信度,确定所述多条文本中的待标注文本。
[0005]根据本公开的另一方面,提供了一种待标注文本的确定装置,包括:获取模块,用于获取多条文本;处理模块,用于基于预设问题,对所述多条文本中各条文本进行 ...
【技术保护点】
【技术特征摘要】
1.一种待标注文本的确定方法,包括:获取多条文本;基于预设问题,对所述多条文本中各条文本进行处理,以获得所述各条文本针对所述预设问题的预测答案的置信度,所述置信度用于表明所述预测答案为真实答案的概率值;基于所述各条文本针对所述预设问题的预测答案的置信度,确定所述多条文本中的待标注文本。2.根据权利要求1所述的方法,其中,若所述预设问题为预设的单一问题,所述置信度包括起始置信度和结束置信度,所述基于所述各条文本针对所述预设问题的预测答案的置信度,确定所述多条文本中的待标注文本,包括:对应所述各条文本,确定所述起始置信度与所述结束置信度的差值的绝对值;基于所述绝对值,确定所述多条文本中的待标注文本。3.根据权利要求2所述的方法,其中,所述基于所述绝对值,确定所述多条文本中的待标注文本,包括:将所述多条文本中的所述绝对值最大的文本,作为所述待标注文本。4.根据权利要求1所述的方法,其中,若所述预设问题为预设的多个问题,所述置信度包括起始置信度和结束置信度,所述预测答案包括:内容为非空的答案,所述基于所述各条文本针对所述预设问题的预测答案的置信度,确定所述多条文本中的待标注文本,包括:对应所述各条文本,基于所述内容为非空的答案的数量、所述起始置信度和所述结束置信度,以及,所述多个问题的数量,确定综合值;基于所述综合值,确定所述多条文本中的待标注文本。5.根据权利要求4所述的方法,其中,所述基于所述内容为非空的答案的数量、所述起始置信度和所述结束置信度,以及,所述多个问题的数量,确定综合值,包括:基于所述起始置信度和所述结束置信度的差值的绝对值,以及,所述多个问题的数量,确定所述绝对值的平均值;将所述内容为非空的答案的数量与所述绝对值的平均值之和,作为所述综合值。6.根据权利要求4所述的方法,其中,所述基于所述综合值,确定所述多条文本中的待标注文本,包括:将所述多条文本中的所述综合值最大的文本,作为所述待标注文本。7.根据权利要求1
‑
6任一项所述的方法,其中,所述置信度采用阅读理解模型对所述各条文本进行处理后获得,所述确定所述多条文本中的待标注文本之后,所述方法还包括:获得针对所述待标注文本的标注数据;基于所述待标注文本和所述标注数据,训练所述阅读理解模型。8.一种待标注文本的确定装置,包括:获取模块,用于获取多条文本;处理模块,用于基于预设问题,对所述多条文本中各条文本进行处理,以获得所述各条文本针对所述预设问题的预测答...
【专利技术属性】
技术研发人员:尹何举,韩磊,刘凯,李婷婷,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。