【技术实现步骤摘要】
一种语料处理模型的更新方法、类目确定方法及装置
[0001]本公开涉及人工智能领域,尤其涉及一种语料处理模型的更新方法、类目确定方法及装置。
技术介绍
[0002]自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。
[0003]为待处理语料确定对应的类目,类目可以在一定程度上体现对待处理语料的画像描述。相关技术中,在为待处理语料确定对应的类目时往往用到语料处理模型。语料处理模型将携带有类目标注信息的样本语料作为建模单元,关注样本语料自身与其所对应的类目标注信息之间的关系。随着时间的推移、相关业务类目的变化(比如增加新类目、删除旧类目),需要基于携带有变化后的类目标注信息的样本语料更新模型,这会带来较慢的模型更新速度、较长的模型更新 ...
【技术保护点】
【技术特征摘要】
1.一种语料处理模型的更新方法,其特征在于,所述方法包括:获取当前批次样本集;根据所述当前批次样本集中样本语料所携带的类目标注信息进行分组,使得携带相同类目标注信息的样本语料位于相同的样本语料组;基于当前语料处理模型得到所述样本语料的表征向量;计算所述样本语料的表征向量和同组样本语料的表征向量之间的相关度,得到所述样本语料的第一相关度,所述同组样本语料为与所述样本语料位于相同样本语料组的其它样本语料;计算所述样本语料的表征向量和异组样本语料的表征向量之间的相关度,得到所述样本语料的第二相关度,所述异组样本语料为与所述样本语料位于不同样本语料组的其它样本语料;根据所述第一相关度和所述第二相关度,调整所述当前语料处理模型的参数至满足模型收敛条件,以及将满足所述模型收敛条件的当前语料处理模型作为目标语料处理模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一相关度和所述第二相关度,调整所述当前语料处理模型的参数至满足模型收敛条件步骤,包括:根据所述第一相关度和所述第二相关度得到所述样本语料的当前批次实际全局相关度;获取所述样本语料的当前批次期望全局相关度;根据所述当前批次实际全局相关度以及所述当前批次期望全局相关度计算损失函数值;基于所述损失函数值调整所述当前语料处理模型的参数至满足模型收敛条件。3.一种类目确定方法,其特征在于,所述方法包括:获取指示目标对象的待处理语料;以所述待处理语料为输入,利用如权利要求1至2中任一项所述的目标语料处理模型得到所述待处理语料的表征向量;基于所述待处理语料的表征向量与多个标准表征向量间的相似度,确定与所述待处理语料的表征向量相匹配的标准表征向量,每个所述标准表征向量携带有其对应的类目标注信息;基于所述相匹配的标准表征向量对应的类目标注信息确定所述目标对象的类目。4.根据权利要求3所述的方法,其特征在于,在所述基于所述待处理语料的表征向量与多个标准表征向量间的相似度,确定与所述待处理语料的表征向量相匹配的标准表征向量步骤之前,所述方法还包括确定所述多个标准表征向量的步骤;所述确定所述多个标准表征向量的步骤包括:获取标准语料库,所述标准语料库记录有标准语料以及所述标准语料的表征向量,每个所述标准语料携带有其对应的类目标注信息,所述标准语料的表征向量是利用所述目标语料处理模型得到的;对所述待处理语料进行分词处理得到至少两个语料片段;基于每个所述语料片段查询所述标准语料库,得到所述每个语料片段对应的标准语料集,所述语料片段对应的标准语料集中的标准语料均包含所述语料片段;
根据每个语料片段对应的标准语料集,得到标准语料合集;基于所述标准语料合集中各个标准语料的出现频次,确定出至少两个目标标准语料;基于所述标准语料库获取每个所述目标标准语料的表征向量,将所述目标标准语料的表征向量作为所述标准表征向量。5.根据权利要求4所述的方法,其特征在于,在所述获取标准语料库步骤之前,还包括为所述标准语料库构建倒排索引的步骤,所述倒排索引...
【专利技术属性】
技术研发人员:尚航,杨森,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。