待标注文本的确定方法、装置、设备和存储介质制造方法及图纸

技术编号:33451311 阅读:66 留言:0更新日期:2022-05-19 00:35
本公开提供了一种待标注文本的确定方法、装置、设备和存储介质,涉及计算机技术领域,具体涉及自然语言处理、机器学习、智能阅读理解、智能问答等人工智能领域。待标注文本的确定方法包括:获取多条文本;基于预设问题,对所述多条文本中各条文本进行处理,以获得所述各条文本针对所述预设问题的预测答案的置信度,所述置信度用于表明所述预测答案为真实答案的概率值;基于所述各条文本针对所述预设问题的预测答案的置信度,确定所述多条文本中的待标注文本。本公开可以提高待标注文本的有效性。本公开可以提高待标注文本的有效性。本公开可以提高待标注文本的有效性。

【技术实现步骤摘要】
待标注文本的确定方法、装置、设备和存储介质


[0001]本公开涉及计算机
,具体涉及自然语言处理、机器学习、智能阅读理解、智能问答等人工智能领域,尤其涉及一种待标注文本的确定方法、装置、设备和存储介质。

技术介绍

[0002]自然语言处理领域的机器学习依赖高质量的标注数据。为了降低标注成本、提高标注效率,需要选择合适的待标注文本。

技术实现思路

[0003]本公开提供了一种待标注文本的确定方法、装置、设备和存储介质。
[0004]根据本公开的一方面,提供了一种待标注文本的确定方法,包括:获取多条文本;基于预设问题,对所述多条文本中各条文本进行处理,以获得所述各条文本针对所述预设问题的预测答案的置信度,所述置信度用于表明所述预测答案为真实答案的概率值;基于所述各条文本针对所述预设问题的预测答案的置信度,确定所述多条文本中的待标注文本。
[0005]根据本公开的另一方面,提供了一种待标注文本的确定装置,包括:获取模块,用于获取多条文本;处理模块,用于基于预设问题,对所述多条文本中各条文本进行处理,以获得所述各条本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种待标注文本的确定方法,包括:获取多条文本;基于预设问题,对所述多条文本中各条文本进行处理,以获得所述各条文本针对所述预设问题的预测答案的置信度,所述置信度用于表明所述预测答案为真实答案的概率值;基于所述各条文本针对所述预设问题的预测答案的置信度,确定所述多条文本中的待标注文本。2.根据权利要求1所述的方法,其中,若所述预设问题为预设的单一问题,所述置信度包括起始置信度和结束置信度,所述基于所述各条文本针对所述预设问题的预测答案的置信度,确定所述多条文本中的待标注文本,包括:对应所述各条文本,确定所述起始置信度与所述结束置信度的差值的绝对值;基于所述绝对值,确定所述多条文本中的待标注文本。3.根据权利要求2所述的方法,其中,所述基于所述绝对值,确定所述多条文本中的待标注文本,包括:将所述多条文本中的所述绝对值最大的文本,作为所述待标注文本。4.根据权利要求1所述的方法,其中,若所述预设问题为预设的多个问题,所述置信度包括起始置信度和结束置信度,所述预测答案包括:内容为非空的答案,所述基于所述各条文本针对所述预设问题的预测答案的置信度,确定所述多条文本中的待标注文本,包括:对应所述各条文本,基于所述内容为非空的答案的数量、所述起始置信度和所述结束置信度,以及,所述多个问题的数量,确定综合值;基于所述综合值,确定所述多条文本中的待标注文本。5.根据权利要求4所述的方法,其中,所述基于所述内容为非空的答案的数量、所述起始置信度和所述结束置信度,以及,所述多个问题的数量,确定综合值,包括:基于所述起始置信度和所述结束置信度的差值的绝对值,以及,所述多个问题的数量,确定所述绝对值的平均值;将所述内容为非空的答案的数量与所述绝对值的平均值之和,作为所述综合值。6.根据权利要求4所述的方法,其中,所述基于所述综合值,确定所述多条文本中的待标注文本,包括:将所述多条文本中的所述综合值最大的文本,作为所述待标注文本。7.根据权利要求1

6任一项所述的方法,其中,所述置信度采用阅读理解模型对所述各条文本进行处理后获得,所述确定所述多条文本中的待标注文本之后,所述方法还包括:获得针对所述待标注文本的标注数据;基于所述待标注文本和所述标注数据,训练所述阅读理解模型。8.一种待标注文本的确定装置,包括:获取模块,用于获取多条文本;处理模块,用于基于预设问题,对所述多条文本中各条文本进行处理,以获得所述各条文本针对所述预设问题的预测答...

【专利技术属性】
技术研发人员:尹何举韩磊刘凯李婷婷
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1