文本选取方法、装置、电子设备与可读存储介质制造方法及图纸

技术编号:36955481 阅读:17 留言:0更新日期:2023-03-22 19:15
本公开提供一种文本选取方法、装置、电子设备与可读存储介质,涉及自然语言处理、深度学习、云服务等人工智能技术领域。其中,文本选取方法包括:获取目标语义单元与待处理文本;根据目标语义单元,从待处理文本中选取第一候选文本;使用第一分类模型得到第一候选文本的预测结果,选取预测结果与目标语义单元对应的第一候选文本,作为第二候选文本;根据第二候选文本的分句结果,使用多个第二分类模型得到第二候选文本的预测结果,选取预测结果与目标语义单元对应的第二候选文本,作为目标文本。本公开能够实现选取与目标语义单元更加匹配的目标文本的目的,从而提升所选取的目标文本的准确性,降低在选取目标文本时的成本与复杂度。度。度。

【技术实现步骤摘要】
文本选取方法、装置、电子设备与可读存储介质


[0001]本公开涉及数据处理
,具体涉及自然语言处理、深度学习、云服务等人工智能
提供了一种文本选取方法、装置、电子设备与可读存储介质。

技术介绍

[0002]现有技术需要使用已标注类型和/或领域的文本,进行文本分类模型的训练,以使得训练得到的文本分类模型能够对所输入的文本的类型和/或领域进行分类。因此,训练得到的文本分类模型的分类准确性,极大地取决于用于训练的文本数据的准确性。
[0003]通常采用编写规则的方式,从粗标注或者未标注的文本中选取能够用于文本分类模型训练的文本,导致文本选取的成本、复杂度较高,且受限于所编写的规则,还会降低所选取的文本的准确性。

技术实现思路

[0004]根据本公开的第一方面,提供了一种文本选取方法,包括:获取目标语义单元与待处理文本;根据所述目标语义单元,从所述待处理文本中选取第一候选文本;使用第一分类模型得到所述第一候选文本的预测结果,选取预测结果与所述目标语义单元对应的第一候选文本,作为第二候选文本;根据所述第二候选文本的分本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本选取方法,包括:获取目标语义单元与待处理文本;根据所述目标语义单元,从所述待处理文本中选取第一候选文本;使用第一分类模型得到所述第一候选文本的预测结果,选取预测结果与所述目标语义单元对应的第一候选文本,作为第二候选文本;根据所述第二候选文本的分句结果,使用多个第二分类模型得到所述第二候选文本的预测结果,选取预测结果与所述目标语义单元对应的第二候选文本,作为目标文本。2.根据权利要求1所述的方法,其中,所述获取目标语义单元包括:获取历史目标文本;从所述历史目标文本中得到候选语义单元,获取所述候选语义单元的统计值;将所述统计值满足预设要求的候选语义单元,作为所述目标语义单元。3.根据权利要求2中所述的方法,其中,所述将所述统计值满足预设要求的候选语义单元,作为所述目标语义单元包括:获取所述历史目标文本的属性信息;确定与所述属性信息对应的语义单元集合;将所述统计值满足预设要求、且未出现在所述语义单元集合中的候选语义单元,作为所述目标语义单元。4.根据权利要求1

3中任一项所述的方法,其中,所述根据所述目标语义单元,从所述待处理文本中选取第一候选文本包括:针对每个待处理文本,获取所述目标语义单元在该待处理文本中的出现次数;在确定所述出现次数大于预设次数阈值的情况下,将该待处理文本作为所述第一候选文本。5.根据权利要求1

4中任一项所述的方法,其中,所述使用第一分类模型得到所述第一候选文本的预测结果包括:根据第一预设份数,将所述第一候选文本划分为多份文本集;选取一个文本集作为第一预测文本集,将剩余的文本集作为第一训练文本集;根据所述第一训练文本集训练所述第一分类模型,使用训练之后的第一分类模型得到所述第一预测文本集中各个第一候选文本的预测结果;确定是否得到了全部第一候选文本的预测结果,若否,则转至执行所述根据第一预设份数,将所述第一候选文本划分为多个文本集的步骤,直至确定得到了全部第一候选文本的预测结果。6.根据权利要求1

5中任一项所述的方法,其中,所述使用第一分类模型得到所述第一候选文本的预测结果,选取预测结果与所述目标语义单元对应的第一候选文本,作为第二候选文本包括:根据所述第一候选文本中未被选取的文本,确定第一文本数量;在确定所述第一文本数量大于第一数量阈值的情况下,转至执行所述使用第一分类模型得到所述第一候选文本的预测结果的步骤,直至所述第一文本数量小于等于第一数量阈值。7.根据权利要求1

6中任一项所述的方法,其中,所述根据所述第二候选文本的分句结
果,使用多个第二分类模型得到所述第二候选文本的预测结果包括:根据第二预设份数,将所述第二候选文本划分为多份文本集;选取一个文本集作为第二预测文本集,将剩余的文本集作为第二训练文本集;根据所述第二训练文本集中各个第二候选文本的分句结果,训练所述多个第二分类模型;根据所述第二预测文本集中各个第二候选文本的分句结果,使用训练之后的多个第二分类模型得到所述第二预测文本集中各个第二候选文本的预测结果;确定是否得到了全部第二候选文本的预测结果,若否,则转至执行所述根据第二预设份数,将所述第二候选文本划分为多个文本集的步骤,直至确定得到了全部第二候选文本的预测结果。8.根据权利要求7所述的方法,其中,所述根据所述第二预测文本集中各个第二候选文本的分句结果,使用训练之后的多个第二分类模型得到所述第二预测文本集中各个第二候选文本的预测结果包括:针对所述第二预测文本集中的每个第二候选文本,分别将该第二候选文本的分句结果输入所述多个第二分类模型;针对每个第二分类模型,根据该第二分类模型针对每个分句结果输出的分句预测结果,得到该第二候选文本对应该第二分类模型的候选预测结果;根据该第二候选文本对应每个第二分类模型的候选预测结果,得到该第二候选文本的预测结果。9.根据权利要求1

8中任一项所述的方法,其中,所述根据所述第二候选文本的分句结果,使用多个第二分类模型得到所述第二候选文本的预测结果,选取预测结果与所述目标语义单元对应的第二候选文本,作为目标文本包括:根据所述第二候选文本中未被选取的文本,确定第二文本数量;在确定所述第二文本数量大于第二数量阈值的情况下,转至执行所述根据第二候选文本的分句结果,使用多个第二分类模型得到第二候选文本的预测结果的步骤,直至所述第二文本数量小于等于第二数量阈值。10.一种文本选取装置,包括:获取单元,用于获取目标语义单元与待处理文本;第一选取单元,用于根据所述目标语义单元,从所述待处理文本中选取第一候选文本;第二选取单元,用于使用第一分类模型得到所述第一候选文本的预测结果,选取预测结果与所述目标语义单元对应的第一候选文本,作为第二候选文本;第三选取单元,用于根据所述第二候选文本的分句结果,使用多个第二分类模型得到所述第二候选文本的预测结果,选取预测结果与所述目标语义单元对应的第二候选文本,...

【专利技术属性】
技术研发人员:高亨德石东升李瑞锋
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1