【技术实现步骤摘要】
非结构化文本的实体关系抽取方法及装置
本公开涉及计算机
,尤其涉及一种非结构化文本的实体关系抽取方法及装置。
技术介绍
电子病历用于记录诸如病人诉求、检测结果、诊断信息、服用药物以及不良反应等的医疗信息。电子病历的实体关系可以用于诸如相似病历推荐、辅助推荐诊断等的医疗处理中。相关技术中,用户需要根据经验总结特征工程,根据该特征工程训练各种分类模型,并且使用训练后的分类模型来抽取电子病历的实体关系。由于前述相关技术需要依靠用户的经验,因此局限性较大,并且如果用户总结的特征工程出错,则训练后的模型可能不合适,由此导致提取的实体关系不适当。
技术实现思路
有鉴于此,本公开提出了一种非结构化文本的实体关系抽取方法及装置。根据本公开的一方面,提供了一种非结构化文本的实体关系抽取方法,所述方法包括:对非结构化文本中的目标语句进行命名实体识别以确定所述目标语句中的命名实体,并获取所述目标语句包含的命名实体两两之间的关系类型;建立所述目标语句的完满二叉树,所述完满二叉树的叶子节点中包括以组成所述命名实体的分词为值的叶子节点;将所述完满二叉树的所有叶子节点各自对应的n维特征向量合 ...
【技术保护点】
1.一种非结构化文本的实体关系抽取方法,其特征在于,所述方法包括:对非结构化文本中的目标语句进行命名实体识别以确定所述目标语句中的命名实体,并获取所述目标语句包含的命名实体两两之间的关系类型;建立所述目标语句的完满二叉树,所述完满二叉树的叶子节点中包括以组成所述命名实体的分词为值的叶子节点;将所述完满二叉树的所有叶子节点各自对应的n维特征向量合成为一个n维特征向量;根据所述关系类型和合成后的n维特征向量来训练模型;使用训练后的模型来抽取目标非结构化文本的关系类型。
【技术特征摘要】
1.一种非结构化文本的实体关系抽取方法,其特征在于,所述方法包括:对非结构化文本中的目标语句进行命名实体识别以确定所述目标语句中的命名实体,并获取所述目标语句包含的命名实体两两之间的关系类型;建立所述目标语句的完满二叉树,所述完满二叉树的叶子节点中包括以组成所述命名实体的分词为值的叶子节点;将所述完满二叉树的所有叶子节点各自对应的n维特征向量合成为一个n维特征向量;根据所述关系类型和合成后的n维特征向量来训练模型;使用训练后的模型来抽取目标非结构化文本的关系类型。2.根据权利要求1所述的方法,其特征在于,将所述完满二叉树的所有叶子节点各自对应的n维特征向量合成为一个n维特征向量,包括:按照所述完满二叉树的层自底向上,对每层中的属于一个子树的两个叶子节点各自对应的n维特征向量进行合成,以得到该子树的根节点对应的n维特征向量,直至将所述完满二叉树的所有叶子节点各自对应的n维特征向量合成为一个n维特征向量。3.根据权利要求1所述的方法,其特征在于,建立所述目标语句的完满二叉树,包括:对所述目标语句进行句法分析,建立所述目标语句对应的句法树;保留所述句法树中与所述命名实体相关联的树结构;将所述树结构转换为完满二叉树。4.根据权利要求1至3中任一项所述的方法,其特征在于,还包括:获取所述目标语句包含的命名实体两两之间的距离;根据所述距离和所述命名实体的类型构建3维特征向量;向所述合成后的n维特征向量添加所述3维特征向量,得到(n+3)维特征向量,根据所述关系类型以及合成后的n维特征向量来训练模型,包括:根据所述关系类型以及所述(n+3)维特征向量来训练模型。5.根据权利要求1至3中任一项所述的方法,其特征在于,使用训练后的模型来抽取目标非结构化文本的关系类型,包括:通过对所述目标非结构化文本中的待抽取语句进行命名实体识别以确定所述待抽取语句中的命名实体;建立所述待抽取语句的完满二叉树;将所述待抽取语句的完满二叉树的所有叶子节点各自对应的n维特征向量合成为一个n维特征向量,并将该n维特征向量输入至所述训练后的模型,所述训练后的模型所输出的结果为所述目标非结构化...
【专利技术属性】
技术研发人员:席梦隆,
申请(专利权)人:新华三大数据技术有限公司,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。