【技术实现步骤摘要】
定位模型训练方法、文本定位方法及相关设备
[0001]本申请实施例涉及人工智能
,尤其涉及一种定位模型训练方法、文本定位方法及相关设备。
技术介绍
[0002]近年来随着互联网的快速发展,文本信息规模快速增长,面对海量的文件审核压力,智能审核已成为一种必然趋势。智能审核通过语料标注得到样本,再通过模型算法训练判断得到答案,但对于审核文件来说,人工标注全部段落,其工作量是巨大的。现有方案中通常会先定位,再圈定一个候选范围,最后对候选范围进行标注。
[0003]例如,通过正则匹配算法对文件标题进行匹配,通过标题定位得到一个候选范围以减轻标注的工作量。但对于某些审核问题,标题的特征并不明显或分布较散,此时难以通过正则匹配算法定位到标题。另外,在长文档标题定位中,一个审核问题的目标段落可能出现在多个标题下,如何得到这些可能标题的候选集成为首先遇到的问题。对于标注者而言,“可能出现的标题位置”是难以标注的,一方面是标注量巨大,另一方面也难以穷举完全。在常见的文本二分类问题中,标注好正样本后,未标注样本则自动成为负样本,但 ...
【技术保护点】
【技术特征摘要】
1.一种定位模型训练方法,其特征在于,所述方法包括:获取审核问题数据及标题文本数据,其中所述标题文本数据对应各个标题层级;根据所述审核问题数据获取所述标题文本数据中的层级标题文本数据,其中所述层级标题文本数据为多个标题层级下的标题文本数据;于所述层级标题文本数据中获取目标标题层级下的标题文本数据,其中所述目标标题层级下的标题文本数据至少包括所述目标标题层级下的层级标题文本数据;将所述目标标题层级下的目标标题文本数据作为训练样本对初始定位模型进行训练,直至满足预设条件时停止训练,得到目标定位模型。2.根据权利要求1所述的定位模型训练方法,其特征在于,所述根据所述审核问题数据获取所述标题文本数据中的层级标题文本数据包括:获取与所述标题文本数据对应的段落文本数据,并根据所述审核问题数据标注标题文本数据及段落文本数据,以获取标注的段落文本数据及标注的标题文本数据;基于所述标题文本数据及所述段落文本数据构建文本语料库,其中所述段落文本数据与所述标题文本数据中的不同标题层级存在对应关系;将所述文本语料库中任一所述段落文本数据所对应的所述标题层级进行拼接,以获取层级标题文本数据;根据所述标注的段落文本数据获取对应的所述层级标题文本数据。3.根据权利要求2所述的定位模型训练方法,其特征在于,所述于所述层级标题文本数据中获取目标标题层级下的标题文本数据包括:将所有所述层级标题文本数据输入目标语言模型以计算所有所述层级标题文本数据的第一特征向量,其中所述目标语言模型用于获取特征向量;根据所有所述层级标题文本数据对应的所述第一特征向量,计算所述层级标题文本数据的平均特征向量,以及所有所述第一特征向量与所述平均特征向量的第一相似度;根据所有所述第一相似度确定目标相似度阈值;根据所述标注的段落文本数据定位所述段落文本数据的目标标题层级,其中所述目标标题层级为与所述段落文本数据对应的所述标题层级;获取所述目标标题层级下的所有标题层级的标题文本数据,并根据所述所有标题层级的标题文本数据构成所述目标标题层级下的标题文本数据。4.根据权利要求3所述的定位模型训练方法,其特征在于,所述根据所有所述第一相似度确定目标相似度阈值包括:计算所有所述第一相似度的平均值,以获取初始相似度阈值;将所述初始相似度阈值与预设值进行计算,以获取所述目标相似度阈值。5.根据权利要求3所述的定位模型训练方法,其特征在于,所述将所述目标标题层级下的目标标题文本数据作为训练样本对初始定位模型进行训练,直至满足预设条件时停止训练,得到目标定位模型包括:根据所述目标标题文本数据构建目标数据集;将所述目标数据集中的所述目标标题文本数据作为训练样本对所述初始定...
【专利技术属性】
技术研发人员:杨雯雯,赖文琛,陈君华,朱菁,毛瑞彬,杨建明,
申请(专利权)人:深圳证券信息有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。