一种面向中文医学文本的实体关系抽取方法及系统技术方案

技术编号：38904404 阅读：30 留言：0更新日期：2023-09-22 14:22

本发明专利技术涉及语言数据处理技术领域，提出一种面向中文医学文本的实体关系抽取方法及系统，包括：获取中文医学文本数据并对其进行预处理，得到文本向量；将所述文本向量分别输入CasRel模型和TPLinker模型中，并对所述CasRel模型和TPLinker模型分别进行训练；选择至少一个预训练模型作为编码层分别对经过训练的所述CasRel模型和TPLinker模型进行编码优化，得到若干实体关系抽取模型；比较不同实体关系抽取模型分别对所述中文医学文本数据的实体抽取效果，选择满足预设的评估指标的目标实体关系抽取模型输出；根据满足评估指标的目标实体关系抽取模型对待处理的中文医学文本数据处理，以获取最终的抽取关系。以获取最终的抽取关系。以获取最终的抽取关系。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向中文医学文本的实体关系抽取方法及系统

[0001]本专利技术涉及语言数据处理
，更具体地，涉及一种面向中文医学文本的实体关系抽取方法及系统。

技术介绍

[0002]中文医学文本是十分宝贵的财富，抽取非结构化和半结构化的医学文本去构建知识图谱等技术，可以为下游的子任务提供相应的服务，从而促进如智能医疗、辅助诊断、医疗知识普及等方面的发展。
[0003]实体关系抽取是判断文本中的实体与实体之间是否存在某种特定的关联关系，并构建出相应的关系三元组。早期的实体关系抽取任务主要采用流水线抽取方法，即先对给定的数据集中的句子进行命名实体的识别，然后再利用分类器等计算出实体间的关系，从而进行关系分类。这一方法容易实现，其实体识别和关系抽取这两个子任务被解耦开来，可以分别使用独立的数据集。然而，实体识别中所出现的误差会继续传递到关系抽取任务中，从而产生级联误差；子任务高度解耦的同时也忽略了它们之间可能的联系与依赖；此外，先进行实体两两配对的任务，会使得本没有关系的实体对出现，这些实体对就成了冗余的信息，提升了计算的复杂...

【技术保护点】

【技术特征摘要】
1.一种面向中文医学文本的实体关系抽取方法，其特征在于，包括：获取中文医学文本数据并对其进行预处理，得到文本向量；将所述文本向量分别输入CasRel模型和TPLinker模型中，并对所述CasRel模型和TPLinker模型分别进行训练；选择至少一个预训练模型作为编码层分别对经过训练的所述CasRel模型和TPLinker模型进行编码优化，得到若干实体关系抽取模型；比较不同实体关系抽取模型分别对所述中文医学文本数据的实体抽取效果，选择满足预设的评估指标的目标实体关系抽取模型输出；根据满足评估指标的目标实体关系抽取模型对待处理的中文医学文本数据处理，以获取最终的抽取关系。2.根据权利要求1所述的实体关系抽取方法，其特征在于，所述中文医学文本数据包括文本及带标注的三元组信息；则对所述中文医学文本数据进行预处理，包括：对于输入所述CasRel模型的中文医学文本数据，将所述三元组信息相应标注中的@value标签去掉，转换为简单三元组格式；对于输入所述TPLinker模型的中文医学文本数据，将所述三元组信息相应标注中的@value标签去掉，转换为简单三元组格式，并获取词粒度和字粒度的片段索引区间；对经过转换处理的中文医学文本数据进行编码，得到文本向量。3.根据权利要求2所述的实体关系抽取方法，其特征在于，对经过转换处理的中文医学文本数据进行编码，包括：利用分词器对经过转换处理的中文医学文本数据中的文本进行切分，利用BERT模型对切分后的词组转换为相应的编码，得到文本向量。4.根据权利要求2所述的实体关系抽取方法，其特征在于，对所述CasRel模型进行训练，包括：将所述文本向量输入CasRel模型中，利用二分类器计算任一token作为subject起始位置及结束位置的概率，并根据预设的阈值进行标记：若概率大于或等于阈值则标记为1，若概率小于阈值则标记为0；得到任一token作为subject起始位置及结束位置的二进制标记值；subject中的损失函数使用最大似然函数判断误差；其表达式为：其中，表示从句子中标识subject的损失函数，表示subject，表示所输入的句子表示，表示权重；表示句子实际长度，表示第个token是subject起始位置的概率，表示第个token是subject结束位置的概率；表示第个token作为subject起始位置的二进制标记，表示第个token作为subject结束位置的二进制标记；表示指针标识主体或客体的位置；表示指针处于其他无关位置；遍历每一种关系类型，对任一subject对应的每一种关系的object起始位置和结束位
置进行解码，得到实体关系预测结果三元组；object中的损失函数使用最大似然函数判断误差；其表达式为：其中，表示标识subject特定关系对应的object损失函数，表示object，表示偏置值；表示第个token是object起始位置的概率，表示第个token是objectj结束位置的概率；表示第个token作为objectj起始位置的二进制标记，表示第个token作为objectj结束位置的二进制标...

【专利技术属性】
技术研发人员：路永和，陈红玉，赵蕊洁，张悦韵，朱侯，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人