一种基于逐步扩展的字母类语系医疗文本关系抽取方法技术

技术编号:18732432 阅读:26 留言:0更新日期:2018-08-22 03:02
一种基于逐步扩展的字母类语系医疗文本关系抽取方法:(1)将医疗文本划分成句子,识别出句子中的实体;(2)统计每个句子中实体对的频率,将出现频率最高的少量实体对作为种子元组;(3)使用种子元组识别出匹配的五元组,通过特征选择,构建词向量生成五元组向量(4)对五元组向量聚类,选用类中心作为关系模板,抽取出符合该模板表达关系的实体对加入到种子元组中,重复(3)(4)步骤,直到迭代结束。本发明专利技术利用医疗文本中实体对上下文的语义特性,构造特征明显、利于聚类的特征向量,使用类中心作为关系模板,反复迭代抽取出医疗文本中的实体关系,算法可以在大量未标注关系的非结构化文本中使用,并保证了较高的精确率和召回率。

A gradual extended alphabetic family medical text relation extraction method

A method of extracting medical text relations based on the gradual expansion of alphabetic language family is proposed: (1) dividing medical text into sentences and identifying the entities in the sentences; (2) counting the frequency of entity pairs in each sentence, a small number of entity pairs with the highest frequency will be used as seed tuples; (3) using seed tuples to identify the matched five tuples. Through feature selection, word vectors are constructed to generate five-tuple vectors. (4) Five-tuple vectors are clustered. Class centers are selected as relation templates. Entity pairs matching the expression relationship of the template are extracted and added to the seed tuple. The steps of (3) (4) are repeated until the end of iteration. By utilizing the semantic characteristics of entities in medical texts to context, the invention constructs feature vectors with distinct features, which are favorable for clustering, uses class centers as relation templates, and repeatedly iteratively extracts entity relations in medical texts. The algorithm can be used in a large number of unstructured texts with unmarked relations, and ensures a high level of performance. Accuracy rate and recall rate.

【技术实现步骤摘要】
一种基于逐步扩展的字母类语系医疗文本关系抽取方法专利
本专利技术涉及非结构化医疗文本范畴下,可对大量无关系标注数据集的输入流创建基于逐步扩展的字母类语系医疗文本关系抽取方法,字母类语系可以是德文、法文、英文等与英文有相似的其他字母类语系。专利技术背景自动从医疗文本中进行关系抽取是计算机科技工作者广泛研究的问题。目前的医疗关系抽取主要集中在对有标注的少量特定数据集进行关系分类的抽取,并且关系抽取技术不具有在医疗不同领域的可迁移性。与此同时,仅仅靠手工去发现这些医疗文本中有用的信息,为医生和患者提供方便,将会越来越复杂、困难。总而言之,目前的技术对于日益增长的非结构化医疗文本关系抽取是有很大的限制。
技术实现思路
目前的医疗关系抽取主要集中在对有标注的少量特定数据集进行关系分类的抽取,并且关系抽取技术不具有在医疗不同领域的可迁移性。本专利技术要解决的技术问题:针对现有的医疗关系抽取技术主要集中在对有标注的少量特定数据集进行关系分类的抽取,以及关系抽取技术不具有在医疗不同领域的可迁移性的缺陷,本专利技术提出了一种基于逐步扩展的字母类语系医疗文本关系抽取方法,该方法填补了现有技术的空白,针对不同医疗领域,该方法具有很好的迁移性,而且可对大量无关系标注数据集的输入流,创建基于逐步扩展的字母类语系医疗文本关系抽取。本专利技术采用的技术方案:一种基于逐步扩展的字母类语系医疗文本关系抽取方法,其特征与步骤如下:(1)将输入的医疗文本划分成句子,并使用实体识别技术,通过加载SNOMED医学字典库,识别出句子中的实体,并将句子切分,生成五元组句子;其中,每个五元组句子中只包含两个实体对;(2)统计每个五元组句子中实体对的频率,将出现频率最高的少量实体对作为种子元组;(3)使用种子元组识别出匹配的五元组句子,通过特征选择,选择每个五元组句子中每个单词的四个特征:用word2vec得到的每个单词的词向量特征W、每个单词距离第一个实体的距离特征DisP1、每个单词距离第二个实体的距离特征DisP2、每个单词的词性特征POS,然后生成五元组向量;(4)对五元组向量进行聚类,选用类中心作为关系模板,抽取出符合该关系模板表达关系的新的五元组句子,将新的五元组句子对应的新的实体对加入到种子元组中,重复(3)(4)步骤,直到没有新的实体对产生。上述基于逐步扩展的字母类语系医疗文本关系抽取方法中,所述的步骤(1)进一步包括:(1a)对输入文本集合,根据自然语言符号,将其划分成句子集合S={s1,s2,…,sn},并去除掉句子中的停用词,其中n代表文本中总共有n个句子;(1b)对于每一个句子si=wi1wi2…wim,加载SNOMED字典库,使用正向匹配算法识别出句子中的实体:然后使用启发式的算法,合并产生关于疾病和症状有关的相邻新实体(比如ei2ei3),其中eix(0≤x≤m)代表识别出来的实体,num(eix)代表一个实体中单词个数,m代表句子si有m个单词;(1c)将实体识别后的句子切分,保证每个句子切分后只出现两个实体,生成五元组句子,产生五元组句子集合S′={s1′,s2′,…,sk′},其中k≥n。si=<prei,ei1,midi,ei2,sufi>其中,(ei1,ei2)构成实体对,prei是实体ei1的前缀单词序列,midi是ei1和ei2之间的词序列,sufi是ei2之后的词序列。上述基于逐步扩展的字母类语系医疗文本关系抽取方法中,所述的步骤(2)进一步包括:(2a)使用统计算法,统计五元组句子集合S′中每个五元组句子中的实体对,得到实体对频次,用哈希表保存,其中关键码值中的key是实体对,value是频次;将实体对按照频次从高到低的顺序排序,筛选出少量出现频次最高的实体对作为种子元组;上述基于逐步扩展的字母类语系医疗文本关系抽取方法中,所述的步骤(3)进一步包括:(3a)使用种子元组从五元组句子集合S′中识别出匹配的五元组句子;(3b)使用word2vec训练得到五元组句子集合S′中每个五元组句子si′中每个单词的词向量特征W;(3c)得到五元组句子si′中每个单词wij距离第一个实体ei1的距离特征DisP1,每个单词wij距离第二个实体ei2的距离特征DisP2,每个单词wij的词性特征POS;(3d)这样一个单词共有四个局部特征W、DisP1、DisP2、POS,对应于四个维度的特征空间,w∈D1×D2×D3×D4,Dt是第t个局部特征库;使用特征向量矩阵,将单词的每个特征映射成向量形式;其中Mt∈Ru×N(t=1,2,3,4)是第t个局部特征空间的向量矩阵,其中u表示第t个局部特征空间中特征向量的维度(比如Mt的每一列是第t个特征空间中的一个特征向量),N表示该第t个局部特征空间中字典Dic的大小(比如第一个局部特征空间,单词很多,字典就会很大,单词个数等于字典的大小);当t=1时,M1是使用word2vec在语料上训练出来的词向量矩阵;当t≥2时,Mt是随机生成的矩阵,随机生成的矩阵包括以下矩阵:每个单词距离第一个实体的距离矩阵,每个单词距离第二个实体的距离矩阵,每个单词的词性矩阵;(3e)对于一个五元组句子si′:s′i=<prei,ei1,midi,ei2,sufi>其中ei1的前缀单词个数和ei2的后缀单词个数可以通过参数PreWN控制前缀个数、通过参数SufWN控制后缀个数;当t=1时,每个词w′ij(j=1,2,…,m)在会有一个长度为u=50词向量当t≥2时,假定是第t个局部特征空间中的一个0-1(onehot)向量,该0-1向量长度为N,由该特征空间中的字典Dic匹配得到,所以每个词最终得到词向量为:其中“。”符号表示链接操作;(3f)根据词向量,可以生成每个五元组特征向量,特征向量不包含实体:上述基于逐步扩展的字母类语系医疗文本关系抽取方法中,所述的步骤(4)进一步包括:(4a)对生成的五元组向量进行聚类,选取类中心作为关系模板;(4b)两个五元组向量的匹配度公式为:Sim(t1,t2),t1对应五元组<pre1,e1,mid1,e′1,suf1>,t2对应五元组<pre2,e2,mid2,e′2,suf2>。其中e1,e′1,e2,e′2标注的实体;元组聚类过程,需要使用匹配度函数Sim计算两个五元组特征向量的相似性,相似性达到最小阈值Tsim,才能聚到一类,聚类时使用single-passclusteringalgorithm算法;(4c)对于每个类中的所有元组:t1,t2,t3,…,tn,是类中心向量:聚类结束时,使用类中心作为候选向量模板,与候选向量模板相似度最大的五元组句子为候选关系模板,本次迭代得到候选向量模板和候选关系模板后,本次迭代和上一次迭代产生的候选关系模板使用Sim函数进行置信度计算,选用置信度高于阈值Pconf的候选关系模板作为关系模板,并迭代进行实体对抽取,置信度低于阈值的关系模板丢弃。上述基于逐步扩展的字母类语系医疗文本关系抽取方法中,所述的步骤(2)进一步包括:(2b)对于已经得到的种子元组,能够通过人工干预进行修改,包括适当添加或减少种子实体对,使之后关系抽取本文档来自技高网...

【技术保护点】
1.一种基于逐步扩展的字母类语系医疗文本关系抽取方法,其特征在于:步骤如下:(1)将输入的医疗文本划分成句子,并使用实体识别技术,通过加载SNOMED医学字典库,识别出句子中的实体,并将句子切分,生成五元组句子,形成五元组句子集合S′;其中,每个五元组句子中只包含两个实体对;(2)统计每个五元组句子中实体对的频率,将出现频率最高的少量实体对作为种子元组;(3)使用种子元组识别出匹配的五元组句子,通过特征选择,选择每个五元组句子中每个单词的四个特征:用word2vec得到的每个单词的词向量特征W、每个单词距离第一个实体的距离特征DisP1、每个单词距离第二个实体的距离特征DisP2、每个单词的词性特征POS,然后生成五元组向量;(4)对五元组向量进行聚类,选用类中心作为关系模板,抽取出符合该关系模板表达关系的新的五元组句子,将新的五元组句子对应的新的实体对加入到种子元组中,重复(3)(4)步骤,直到没有新的实体对产生。

【技术特征摘要】
1.一种基于逐步扩展的字母类语系医疗文本关系抽取方法,其特征在于:步骤如下:(1)将输入的医疗文本划分成句子,并使用实体识别技术,通过加载SNOMED医学字典库,识别出句子中的实体,并将句子切分,生成五元组句子,形成五元组句子集合S′;其中,每个五元组句子中只包含两个实体对;(2)统计每个五元组句子中实体对的频率,将出现频率最高的少量实体对作为种子元组;(3)使用种子元组识别出匹配的五元组句子,通过特征选择,选择每个五元组句子中每个单词的四个特征:用word2vec得到的每个单词的词向量特征W、每个单词距离第一个实体的距离特征DisP1、每个单词距离第二个实体的距离特征DisP2、每个单词的词性特征POS,然后生成五元组向量;(4)对五元组向量进行聚类,选用类中心作为关系模板,抽取出符合该关系模板表达关系的新的五元组句子,将新的五元组句子对应的新的实体对加入到种子元组中,重复(3)(4)步骤,直到没有新的实体对产生。2.根据权利要求1所述的基于逐步扩展的字母类语系医疗文本关系抽取方法,其特征在于:所述的步骤(1)进一步包括:(1a)对输入文本集合,根据自然语言符号,将其划分成句子集合S={s1,s2,…,sn},并去除掉句子中的停用词,其中n代表文本中总共有n个句子;(1b)对于每一个句子si=wi1wi2…wim,加载SNOMED字典库,使用正向匹配算法识别出句子中的实体:然后使用启发式的算法,合并产生关于疾病和症状有关的相邻新实体(比如ei2ei3),其中eix(0≤x≤m)代表识别出来的实体,num(eix)代表一个实体中单词个数,m代表句子si有m个单词;(1c)将实体识别后的句子切分,保证每个句子切分后只出现两个实体,生成五元组句子,产生五元组句子集合S′={s′1,s′2,…,s′k},其中k≥n;s′i=<prei,ei1,midi,ei2,sufi>其中,(ei1,ei2)构成实体对,prei是实体ei1的前缀单词序列,midi是ei1和ei2之间的词序列,sufi是ei2之后的词序列。3.根据权利要求1所述的基于逐步扩展的字母类语系医疗文本关系抽取方法,其特征在于:所述的步骤(2)进一步包括:(2a)使用统计算法,统计五元组句子集合S′中每个五元组句子中的实体对,得到实体对频次,用哈希表保存,其中关键码值中的key是实体对,value是频次;将实体对按照频次从高到低的顺序排序,筛选出少量出现频次最高的实体对作为种子元组。4.根据权利要求1所述的基于逐步扩展的字母类语系医疗文本关系抽取方法,其特征在于:所述的步骤(3)进一步包括:(3a)使用种子元组从五元组句子集合S′中识别出匹配的五元组句子;(3b)使用word2vec训练得到五元组句子集合S′中每个五元组句子si′中每个单词的词向量特征W;(3c)得到五元组句子si′中每个单词wij距离第一个实体ei1的距离特征DisP1,每个单词wij距离第二个实体ei2的距离特征DisP2,每个单词wij的词性特征POS;(3d)这样一个单词共有四个局部特征W、DisP1、DisP2、POS,对应于四个维度的特征空间,w∈D1×D2×D3×D4,Dt是第t个局部特征库;使用特征向量矩阵,将单词的每个特征映射成向量形式;其中Mt∈Ru×N(t=1,2,3,4)是第t个局部特征空间的向量矩阵,其中u表示第t个局部特征...

【专利技术属性】
技术研发人员:罗杰杨云龙金豪
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1