System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及文本关系抽取领域,更具体地,涉及一种复杂文本关系抽取深度学习方法及系统。
技术介绍
1、结直肠癌是全球第三常见的癌症,约占所有癌症病例的10%。它是全球癌症相关死亡的第二大原因。且中国癌症统计报告显示:我国结直肠癌(colorectal cancer,crc)的发病率和死亡率均保持上升趋势,城市远高于农村,且城市的结肠癌发病率上升显著。因此加强深化对结直肠肿瘤的预防和治疗研究,具有重要的意义。目前结直肠癌的诊断方法包括身体检查、影像学检查(如腹部超声、计算机断层扫描和磁共振成像)、使用结肠镜或乙状结肠镜检查结肠内部、采集组织样本(活检)进行组织病理学检查,检查出来的结果需要医生亲自判断和抽取病理报告的关系,而结直肠肿瘤病理文本关系抽取技术可以帮助医生快速提取关键信息,以作出相应的治疗诊断方案,提高就诊效率。
2、在得出的结直肠癌病理文本中,包含了“肉眼所见”、“光镜所见”和“复诊诊断”三个部分(“content”中以“\n”分割出三个部分),“肉眼所见”描述肿瘤大小和肿瘤位置,“光镜所见”描述免疫组化结果,“复诊诊断”描述癌灶部位、病理分型、组织学分级等病理诊断。为了定位所要关注的病灶区和对应的发病状况,制定了“标本-位置”“标本-部位”“位置-部位”“部位-分型”“部位-伴发”“部位-结节”“部位-浸润”“切缘-描述”“淋巴-情况”等十五个标签来进行关系抽取。
3、在医学文本关系抽取领域中,关系抽取的难点主要是文本长度大和文本中存在的关系复杂,密度大,且不同医院不同医生对病理文本中的关系诊
技术实现思路
1、本专利技术为克服上述现有技术所述对文本长度大、文本中的关系复杂、密度大,以及病理文本中的关系判断模糊的文本难以进行关系抽取的缺陷,提供一种复杂文本关系抽取深度学习方法。
2、本专利技术的首要目的是为解决上述技术问题,本专利技术的技术方案如下:
3、本专利技术第一方面提供了一种复杂文本关系抽取深度学习方法,包括:
4、获取文本数据和标签;
5、使用知识图谱处理文本数据和标签,生成关系嵌入;
6、根据预设的分类规则对标签进行分类,得到多个模块,模块包括独立模块和存在依赖关系的模块;
7、对独立模块和存在依赖关系的模块中的首模块提取隐藏特征,利用预训练好的模型提取模块的第一语义特征和第二语义特征,并结合隐藏特征,采用注意力机制提取模块的第三语义特征,同时将提取到的第三语义特征作为存在依赖关系的模块中的后一模块的隐藏特征;
8、利用提取到的第三语义特征经过线性层和激活函数抽取头实体和尾实体;
9、将头实体和尾实体分别进行平均池化后相加,利用双仿射和关系嵌入进行融合实现三元组的对齐。
10、进一步地,所述使用知识图谱处理文本数据和标签,生成关系嵌入,包括:
11、使用transparse知识图谱,transparse首先定义了一个稀疏矩阵,稀疏矩阵的稀疏性来表示关系的重要性,每次更新映射矩阵的时候只更新非0元素,用非0元素来计算从实体空间到关系空间的映射;θr表示映射矩阵稀疏性,也就是关系的重要性程度,设定一个超参数θmin表示重要性最小的矩阵的稀疏性,矩阵的稀疏性用以下公式计算:
12、θr=1-(1-θmin)nr/nr*
13、其中,nr表示关系连接实体对的数量,nr*表示所有nr中最大的一个;
14、在构造稀疏矩阵前,计算矩阵的非0元素个数为θ*n*n,n为特征维度,再沿着对角线依次的随机初始化非0元素,得到映射矩阵mr(θr);得到映射矩阵后,计算从实体空间到关系空间的映射;
15、hp=mr(θr)h,tp=mr(θr)t
16、其中,hp表示投影到关系空间的头实体向量,tp表示投影到关系空间的尾实体向量,h表示头实体向量,t表示尾实体向量;
17、通过下式优化得到关系嵌入r:
18、
19、其中,fr(h,t)表示损失函数,l2表示二范数计算。
20、进一步地,所述根据预设的分类规则对标签进行分类,得到多个模块,模块包括独立模块和存在依赖关系的模块,包括:
21、构造基于规则的分类器,规则设定为若标签的尾项或前项和另一个标签的前项或尾项一样,则该两个标签按前后顺序依次分配到前后相邻的类别中;分类器根据规则将标签的分类分为多个模块,模块包括独立模块和存在依赖关系的模块,每个模块提取不同的标签任务,存在依赖关系的模块之间通过隐藏特征来传递信息;根据规则分类得出标签的医学上的依赖顺序,按先后的依赖关系分配到每个模块中。
22、进一步地,所述对独立模块和存在依赖关系的模块中的首模块提取隐藏特征,包括:
23、对于独立模块和存在依赖关系的模块中的首模块的隐藏特征h,首先将原始文本经过bigbird预训练模型的嵌入层embedding处理,然后再通过线性层linear处理,提取得到相应的隐藏特征。
24、进一步地,所述利用预训练好的模型提取模块的第一语义特征和第二语义特征,包括:
25、使用卷积神经网络来提取第一语义特征:
26、fcnn=conv1d(embedding(input))
27、其中,conv1d()表示卷积提取特征的过程,fcnn表示第一语义特征;
28、使用长短期记忆提取第二语义特征:
29、flstm=lstm(embedding(input))
30、其中,lstm()表示长短期记忆模型的处理过程,flstm表示第二语义特征。
31、进一步地,所述结合第一语义特征、第二语义特征和隐藏特征,采用注意力机制提取模块的第三语义特征,包括:
32、拼接fcnn和flstm后得到第四语义特征m,采用注意力机制来进一步提取得到属于该模块的第三语义特征表示h*:
33、m=cat(fcnn,flstm)
34、
35、
36、
37、
38、h*=([head1,……headk])w
39、其中cat表示拼接操作,其中是多头注意力中第k个头对应的q,k,v权重,w为结合多个注意力头的特征权重,headi表示注意力头,dk为第四语义特征m的维数,h表示隐藏特征。
40、进一步地,所述抽取头实体,包括:
41、
42、
43、
44、
45、
46、其中,s表示头实体,时判断向量为头实体的头部或者尾部的概率,上式的各项w为各个特征乘以的可被训练的权重,wstart1代表计算时给的权重,wend1代表计算时给的权重,b本文档来自技高网...
【技术保护点】
1.一种复杂文本关系抽取深度学习方法,其特征在于,包括:
2.根据权利要求1所述的一种复杂文本关系抽取深度学习方法,其特征在于,所述使用知识图谱处理文本数据和标签,生成关系嵌入,包括:
3.根据权利要求2所述的一种复杂文本关系抽取深度学习方法,其特征在于,所述根据预设的分类规则对标签进行分类,得到多个模块,模块包括独立模块和存在依赖关系的模块,包括:
4.根据权利要求3所述的一种复杂文本关系抽取深度学习方法,其特征在于,所述对独立模块和存在依赖关系的模块中的首模块提取隐藏特征,包括:
5.根据权利要求4所述的一种复杂文本关系抽取深度学习方法,其特征在于,所述利用预训练好的模型提取模块的第一语义特征和第二语义特征,包括:
6.根据权利要求5所述的一种复杂文本关系抽取深度学习方法,其特征在于,所述结合第一语义特征、第二语义特征和隐藏特征,采用注意力机制提取模块的第三语义特征,包括:
7.根据权利要求6所述的一种复杂文本关系抽取深度学习方法,其特征在于,所述抽取头实体,包括:
8.根据权利要求7所述的一
9.根据权利要求8所述的一种复杂文本关系抽取深度学习方法,其特征在于,所述将头实体和尾实体分别进行平均池化后相加,利用双仿射和关系嵌入进行融合实现三元组的对齐,包括:
10.一种复杂文本关系抽取深度学习系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括一种复杂文本关系抽取深度学习程序,所述一种复杂文本关系抽取深度学习程序被所述处理器执行时实现如下步骤:
...【技术特征摘要】
1.一种复杂文本关系抽取深度学习方法,其特征在于,包括:
2.根据权利要求1所述的一种复杂文本关系抽取深度学习方法,其特征在于,所述使用知识图谱处理文本数据和标签,生成关系嵌入,包括:
3.根据权利要求2所述的一种复杂文本关系抽取深度学习方法,其特征在于,所述根据预设的分类规则对标签进行分类,得到多个模块,模块包括独立模块和存在依赖关系的模块,包括:
4.根据权利要求3所述的一种复杂文本关系抽取深度学习方法,其特征在于,所述对独立模块和存在依赖关系的模块中的首模块提取隐藏特征,包括:
5.根据权利要求4所述的一种复杂文本关系抽取深度学习方法,其特征在于,所述利用预训练好的模型提取模块的第一语义特征和第二语义特征,包括:
6.根据权利要求5所述的一种复杂文本关...
【专利技术属性】
技术研发人员:蔡念,罗智浩,陈传文,黎权庆,李石山,彭富强,陈润宇,王晓丹,刘增国,温韵洁,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。