【技术实现步骤摘要】
用于实体标注的方法和装置
[0001]本申请涉及人工智能(artificial intelligence,AI)领域,并且更具体地涉及AI领域中的用于实体标注的方法和装置。
技术介绍
[0002]命名实体识别(named entity recognition,NER)是自然语言处理(natural language processing,NLP)中的一项基础任务。NER能够识别人名、地名、组织机构名、日期时间等类别的实体,从而可以利用识别的实体进行信息抽取、信息检索、句法分析、语义角色标注等。
[0003]在NER中可以将输入语句输入序列标注模型,从而输出各个词语的标签。在现有技术中,利用特定语料训练的序列标注模型,只能适用于特定的输入语句,例如,训练序列标注模型的样本集的训练语句包括电影语料,则输入序列标注模型进行预测的输入语句需要包括电影,则才能预测标签,如果输入语句包括电影和电视剧,则只能预测电影不能预测电视剧。如果有多种不同语料的多个输入语句,则需要训练不同语料或不同语料组合的多个序列标注模型,则会导致复杂度 ...
【技术保护点】
【技术特征摘要】
1.一种用于实体标注的方法,其特征在于,包括:确定N个样本集的N个掩码向量,所述N个样本集与所述N个掩码向量一一对应,所述N个样本集中不同样本集对应的实体语料不同,所述N个样本集中每个样本集包括至少一个实体语料的多个样本,所述N个掩码向量中每个掩码向量的M个维度对应M个命名实体,M和N为正整数;根据所述N个样本集中每个样本集中的部分样本和所述N个掩码向量更新第一序列标注模型,得到第二序列标注模型,所述第二序列标注模型用于实体标注。2.根据权利要求1所述的方法,其特征在于,所述根据所述N个样本集中每个样本集中的部分样本和所述N个掩码向量更新第一序列标注模型,包括:将所述N个样本集中的第一样本集中的第一样本中的第一词语输入到所述第一序列标注模型中,输出所述第一词语的权重向量;将所述第一词语的实际标签向量与所述权重向量输入到损失函数中,计算所述第一词语的损失向量;将所述损失向量和所述第一样本集对应的第一掩码向量相乘,得到掩码后的所述损失向量;根据所述掩码后的所述损失向量更新所述第一序列标注模型;其中,所述权重向量、所述实际标签向量和所述损失向量的维度为M。3.根据权利要求2所述的方法,其特征在于,所述第一词语为所述第一样本中的实体词。4.根据权利要求2或3所述的方法,其特征在于,所述损失函数为交叉熵函数。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:根据所述N个样本集中每个样本集中的剩余样本测试所述第二序列标注模型的稳定性。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:将预测语句中的第二实体词输入到所述第二序列标注模型,输出预测向量;根据所述预测向量确定所述第二实体词的至少一个标签,所述预测语句为包括所述N个样本集中任一样本集对应的实体语料的语句;其中,所述预测向量的维度为M。7.根据权利要求6所述的方法,其特征在于,所述根据所述预测向量确定所述第二实体词的至少一个标签,包括:确定所述预测向量每个维度的取值是否大于预设值;将所述预测向量中取值大于预设值的维度对应的命名实体标签确定为所述第二实体词的所述至少一个标签。8.根据权利要求1至7中任一项所述的方法,其特征在于,所述确定N个样本集的N个掩码向量,包括:确定所述N个掩码向量中每个掩码向量的维度为所述N个样本集对应的实体语料种类的总数量;根据所述N个样本集中每个样本集对应的实体语料确定所述N个掩码向量每个掩码向量对应的取值。
9.一种用于实体标注的装置,其特征在于,包括:确定单元,用于确定N个样本集的N个掩码向量,所述N个样本集与所述N个掩码向量一一对应,所述N个样本集中不同样本集对应...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。