一种数据抽取、实体识别方法和装置制造方法及图纸

技术编号：34545053 阅读：49 留言：0更新日期：2022-08-17 12:27

本申请实施例公开了一种数据抽取、实体识别方法和装置。依据本申请实施例，针对待识别的医学信息文本，首先抽取医学信息文本的文本片段中包括的医学实体之间的关系数据，进一步基于所抽取的医学实体之间的关系数据，确定医学信息文本包括的多个医学实体，进一步将文本片段对应识别到的医学实体和关系数据组织为文本片段的数据抽取结果。由于采用数据关系预测医学实体，则单个关系数据对应预测的医学实体仅仅包括两个医学实体，因此可知，采用一组编码即可表达本次预测的医学实体以及医学实体之间的关系数据，解决了复杂文本因存在重叠实体而无法表达结果的问题，从而使得识别结果的表达可以满足模型训练、模型预测、数据抽取等各种应用需求。等各种应用需求。等各种应用需求。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据抽取、实体识别方法和装置

[0001]本申请涉及数据处理
，具体涉及一种数据抽取方法和装置、一种实体识别方法和装置、实体识别模型的处理方法和装置、医学数据图谱的构建方法和装置、医学数据检索方法和装置、医学数据互动方法和装置、一种计算机设备、一种计算机可读存储介质。

技术介绍

[0002]实体识别是指从文本中识别人物、地名等实体数据，由于文本中除了实体本身还包括实体之间的关系数据，因此通常还会进一步进行关系抽取，实体识别可以看作关系抽取的一个必要的预处理任务，通过顺次执行实体识别和关系抽取来完成文本信息的抽取。
[0003]一种实现方案中，可以采用设定的编码对句子的实体和实体之间的关系数据进行标注，在依据识别到的实体预测实体之间的关系数据后，使用句子对应的编码结果来表征实体和关系数据，进一步用于模型训练过程、预测过程，或是根据文本片段的编码结果形成文本的数据抽取结果。
[0004]上述方案中存在的问题是，若句子中一个实体与两个或两个以上的其他实体存在关系，则识别到的关系数据包括了多组实体及其之间的关系数据，无法使用一个编码结果来表达一次预测结果，从而使得该方案无法应用于复杂文本的数据抽取。

技术实现思路

[0005]鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的图像处理方法、图像搜索方法、对象搜索方法以及计算机设备、计算机可读存储介质。
[0006]根据本申请的一个方面，提供了一种数据抽取方法，包括：
[0007]获取待识别的...

【技术保护点】

【技术特征摘要】
1.一种数据抽取方法，其特征在于，包括：获取待识别的医学信息文本；抽取所述医学信息文本的文本片段中包括的医学实体之间的关系数据；基于所抽取的医学实体之间的关系数据，确定所述医学信息文本包括的多个医学实体；将所述文本片段对应识别到的关系数据和医学实体组织为所述文本片段的数据抽取结果；按照文本片段在所述医学信息文本中的位置，将多个文本片段的数据抽取结果拼接为所述医学信息文本对应的数据抽取结果。2.根据权利要求1所述的方法，其特征在于，所述将所述文本片段对应识别到的关系数据和医学实体组织为所述文本片段的数据抽取结果包括：依据识别到的医学实体和对应的关系数据按照所处位置以及对应编码标识，组织所述文本片段的编码结果，作为所述文本片段的数据抽取结果。3.根据权利要求1所述的方法，其特征在于，抽取医学实体之间的关系数据以及确定医学实体的步骤基于实体识别模型实现，所述实体识别模型包括关系抽取层和实体识别层，所述实体识别层依据所述关系抽取层输出的实体之间的关系数据进行实体预测。4.根据权利要求1所述的方法，其特征在于，所述抽取所述医学信息文本的文本片段中包括的医学实体之间的关系数据包括：识别所述文本片段中词的文本特征数据，所述文本特征数据包括所述词的上下文关联信息；基于所述上下文关联信息，抽取所述文本片段中包括的医学实体之间的关系数据。5.根据权利要求4所述的方法，其特征在于，所述基于所抽取的医学实体之间的关系数据，确定所述医学信息文本包括的多个医学实体包括：基于所抽取的医学实体之间的关系数据、文本片段中词的的上下文关联信息，确定所述医学信息文本包括的多个医学实体。6.根据权利要求4所述的方法，其特征在于，识别所述文本片段中词的上下文关联信息的步骤通过实体识别模型的至少一个特征编码层实现。7.根据权利要求1所述的方法，其特征在于，还包括：获取医学信息文本样本；基于所述医学信息文本样本训练实体识别模型。8.根据权利要求7所述的方法，其特征在于，所述基于所述医学信息文本样本训练实体识别模型包括：基于所述医学信息文本样本训练初始的实体识别模型；基于所述实体识别模型的整体损失函数对所述初始的实体识别模型进行迭代训练，所述整体损失函数依据所述关系抽取层和实体识别层分别对应的层损失函数确定。9.根据权利要求7所述的方法，其特征在于，所述获取待识别的获取医学信息文本样本包括：通过网络爬虫抓取医学网站发表的专业文章的摘要内容作为获取医学信息文本样本，或，访问医学信息数据库获取医学信息文本样本；
对所述获取医学信息文本样本的医学实体和医学实体之间的关系数据进行标记。10.根据权利要求9所述的方法，其特征在于，所述方法还包括：对所述医学信息文本样本进行分句，得到非结构化的医学信息文本样本。11.根据权利要求7所述的方法，其特征在于，还包括：去除所述专业文本中与目标应用领域无关的内容。12.根据权利要求4所述的方法，其特征在于，所述文本特征数据还包括所述词的标点符号特征、大小写特征、词性标注特征、句法依赖特征中至少一种文本特征。13.根据权利要求1所述的方法，其特征在于，还包括：根据识别的医学实体以及医学实体之间的关系数据建立医学信息数据库，所述医学信息数据库中医学实体、至少两种医学实体之间的关系数据关联存储。所述方法还包括：接收针对至少一种目标医学实体的检索请求；从所述医学信息数据库中检索所述目标医学实体与其他医学实体之间的关系数据，并提供所述关系数据作为检索结果。14.一种实体识别方法，其特征在于，包括：获取待识别的医学信息文本；抽取所述医学信息文本中包括的医学实体之间的关系数据；基于所抽取的医学实体之间的关系数据，预测所述医学信息文本包括的多个医学实体；提供所述医学信息文本对应识别的关系数据和医学实体。15.一种实体识别方法，其特征在于，包括...

【专利技术属性】
技术研发人员：张奇，孙晋权，王宇，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人