【技术实现步骤摘要】
用于识别预设类别实体的方法、装置、电子设备和介质
[0001]本公开的实施例涉及计算机
,具体涉及用于识别预设类别实体的方法、装置、电子设备和介质。
技术介绍
[0002]在自然语言处理(Natural Language Processing,NLP)领域中,一般将带有某一类特征的文本片段称为实体。将这一类文本片段从原文中标记的过程被称为实体识别。目前实体识别技术主要包括两大类:基于匹配的实体识别方法和基于深度学习(Deep Learning,DL)技术的实体识别方法。其中,基于匹配的实体识别方法主要通过预设的包括所有实体的词典或预先设置的字/词之间的搭配模式与待识别的文本中的片段进行一一比对来得到识别结果。基于深度学习技术的实体识别方法主要通过BERT(Bidirectional Encoder Representation from Transformers)等底层的语言模型结合RNN(Recurrent Neural Network,循环神经网络)、CNN(Convolutional Neural Network ...
【技术保护点】
【技术特征摘要】
1.一种用于识别预设类别实体的方法,包括:获取待识别文本;获取预设类别实体识别模板,其中,所述预设类别实体识别模板中包括至少一种文本匹配结构;利用所述预设类别实体识别模板解析所述待识别文本,生成待匹配模式串,其中,所述待匹配模式串包括文本匹配结构标识序列;根据与所述预设类别实体相匹配的预设模式串集合与所述待匹配模式串之间的匹配,生成识别结果,其中,所述识别结果用于指示所述待识别文本中所包含的所述预设类别实体。2.根据权利要求1所述的方法,其中,所述根据与所述预设类别实体相匹配的预设模式串集合与所述待匹配模式串之间的匹配,生成识别结果,包括:获取与所述预设类别实体相匹配的预设模式串集合中的模式串对应的向量表示;生成与所述待匹配模式串对应的待匹配向量表示;根据所获取的向量表示与所述待匹配向量表示之间的相似度,生成所述识别结果。3.根据权利要求2所述的方法,其中,所述获取与所述预设类别实体相匹配的预设模式串集合中的模式串对应的向量表示,包括:获取与所述预设类别实体相匹配的文本片段集合;利用所述预设类别实体识别模板解析所述文本片段集合中的文本片段,生成所述预设模式串集合;将所述预设模式串集合中的模式串输入至预先训练的向量生成模型,得到对应的向量表示。4.根据权利要求3所述的方法,其中,所述文本片段集合包括与所述预设类别实体相匹配的正例文本片段;以及所述根据所获取的向量表示与所述待匹配向量表示之间的相似度,生成识别结果,包括:响应于确定所述待匹配向量表示与正例文本片段对应的向量表示之间的相似度大于预设阈值,生成用于指示所述待识别文本中包含所述预设类别实体的识别结果。5.根据权利要求3所述的方法,其中,所述文本片段集合包括与所述预设类别实体相匹配的负例文本片段;以及所述根据所获取的向量表示与所述待匹配向量表示之间的相似度,生成识别结果,包括:响应于确定所述待匹配向量表示与负例文本片段对应的向量表示之间的相似度大于预设阈值,生成用于指示所述待识别文本中不包含所述预设类别实体的识别结果。6.根据权利要求3所述的方法,其中,所述方法还包括:将所述识别结果发...
【专利技术属性】
技术研发人员:杨帅,张亚,文豪,谢佩,徐晓涵,闫盈盈,翟所迪,
申请(专利权)人:北京沃东天骏信息技术有限公司北京大学第三医院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。