【技术实现步骤摘要】
自然语言处理方法及其模型的获取方法、装置、存储介质
[0001]本申请涉及人工智能
,特别涉及一种自然语言处理方法及其模型的获取方法、装置、存储介质。
技术介绍
[0002]自然语言处理(nature language processing,NLP)是人工智能(artificial intelligence,AI)
中的一个重要研究方向,自然语言是指包括实体的科学语言,自然语言处理可以包括识别实体和抽取两个实体之间的关系等。
[0003]目前,一般采用如基于变换器的双向编码表征(bidirectional encoder repre sentation from transformers,BERT)处理模型对自然语言进行处理。但是,目前的处理模型在进行自然语言处理时仅关注实体本身,而忽略了一个文档中各个实体之间的复杂交互,如此导致处理准确率较低,可靠性较差。
技术实现思路
[0004]本申请实施例提供了一种自然语言处理方法及其模型的获取方法、装置、存储介质,可以解决相关技术中自然语言处理准 ...
【技术保护点】
【技术特征摘要】
1.一种自然语言处理方法,其特征在于,所述方法包括:获取目标文本,所述目标文本包括至少一个实体;获取目标自然语言处理模型,所述目标自然语言处理模型为基于基础处理模型的实体预测损失值和实体关系预测损失值对所述基础处理模型进行更新得到的模型,所述实体预测损失值基于所述基础处理模型预测的各个实体的相似度确定,所述实体关系预测损失值基于所述基础处理模型预测的各个实体对的关系相似度确定,其中,每个所述实体对包括两个实体;将所述目标文本输入所述目标自然语言处理模型,得到所述目标自然语言处理模型输出的处理结果。2.一种自然语言处理模型的获取方法,其特征在于,所述方法包括:获取多个第一训练样本和多个第二训练样本,每个所述第一训练样本包括一个实体对,每个所述第二训练样本包括两个实体对,所述实体对包括两个实体;将所述多个第一训练样本输入至基础处理模型,得到所述基础处理模型的实体预测损失值,所述实体预测损失值基于所述基础处理模型预测的各个所述第一训练样本中两个实体的相似度确定;将所述多个第二训练样本输入至所述基础处理模型,得到所述基础处理模型的实体关系预测损失值,所述实体关系预测损失值基于所述基础处理模型预测的各个所述第二训练样本中两个实体对的关系相似度确定;基于所述实体预测损失值和所述实体关系预测损失值,更新所述基础处理模型的参数,得到目标自然语言处理模型。3.根据权利要求2所述的方法,其特征在于,所述多个第一训练样本包括:从第一文档集合包括的多个第一文档中获取到的M个第一正训练样本,以及与每个所述第一正训练样本对应的多个第一负训练样本;其中,每个所述第一正训练样本包括:一个所述第一文档中的一个头实体,以及所述头实体的尾实体,每个所述第一负训练样本包括:所述第一负训练样本所对应的第一正训练样本中的头实体,以及所述头实体所属的第一文档中的参考实体,所述参考实体为所述第一文档中除所述尾实体之外的实体,M为大于1的整数;所述多个第二训练样本包括:从第二文档集合包括的多个第二文档中获取到的N个第二正训练样本,以及与每个所述第二正训练样本对应的多个第二负训练样本;其中,每个所述第二正训练样本包括:从至少一个所述第二文档中获取到的具有相同关系的两个实体对,每个所述第二负训练样本包括:从至少一个所述第二文档中获取到的具有不同关系的两个实体对,以及无关系的两个实体对,且每个所述第二负训练样本中的一个实体对与所述第二负训练样本对应的一个第二正训练样本中的一个实体对相同,N为大于1的整数。4.根据权利要求3所述的方法,其特征在于,所述将所述多个第一训练样本输入至基础处理模型,得到所述基础处理模型的实体预测损失值,包括:将每个所述第一正训练样本和对应的多个所述第一负训练样本输入至基础处理模型,得到所述基础处理模型的实体预测损失值;所述将所述多个第二训练样本输入至所述基础处理模型,得到所述基础处理模型的实体关系预测损失值,包括:将每个所述第二正训练样本和对应的多个所述第二负训练样本输入至所述基础处理
模型,得到所述基础处理模型的实体关系预测损失值。5.根据权利要求4所述的方法,其特征在于,基于第m个第一正训练样本和对应的多个第一负训练样本得到的基础处理模型的实体预测损失值Lep满足:其中,是指第m个第一正训练样本中头实体和尾实体...
【专利技术属性】
技术研发人员:秦禹嘉,林衍凯,高信龙一,刘知远,李鹏,周杰,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。