一种基于逐步扩展的字母类语系医疗文本关系抽取方法技术

技术编号：18732432 阅读：26 留言：0更新日期：2018-08-22 03:02

一种基于逐步扩展的字母类语系医疗文本关系抽取方法：(1)将医疗文本划分成句子，识别出句子中的实体；(2)统计每个句子中实体对的频率，将出现频率最高的少量实体对作为种子元组；(3)使用种子元组识别出匹配的五元组，通过特征选择，构建词向量生成五元组向量(4)对五元组向量聚类，选用类中心作为关系模板，抽取出符合该模板表达关系的实体对加入到种子元组中，重复(3)(4)步骤，直到迭代结束。本发明专利技术利用医疗文本中实体对上下文的语义特性，构造特征明显、利于聚类的特征向量，使用类中心作为关系模板，反复迭代抽取出医疗文本中的实体关系，算法可以在大量未标注关系的非结构化文本中使用，并保证了较高的精确率和召回率。

A gradual extended alphabetic family medical text relation extraction method

A method of extracting medical text relations based on the gradual expansion of alphabetic language family is proposed: (1) dividing medical text into sentences and identifying the entities in the sentences; (2) counting the frequency of entity pairs in each sentence, a small number of entity pairs with the highest frequency will be used as seed tuples; (3) using seed tuples to identify the matched five tuples. Through feature selection, word vectors are constructed to generate five-tuple vectors. (4) Five-tuple vectors are clustered. Class centers are selected as relation templates. Entity pairs matching the expression relationship of the template are extracted and added to the seed tuple. The steps of (3) (4) are repeated until the end of iteration. By utilizing the semantic characteristics of entities in medical texts to context, the invention constructs feature vectors with distinct features, which are favorable for clustering, uses class centers as relation templates, and repeatedly iteratively extracts entity relations in medical texts. The algorithm can be used in a large number of unstructured texts with unmarked relations, and ensures a high level of performance. Accuracy rate and recall rate.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于逐步扩展的字母类语系医疗文本关系抽取方法专利
本专利技术涉及非结构化医疗文本范畴下，可对大量无关系标注数据集的输入流创建基于逐步扩展的字母类语系医疗文本关系抽取方法,字母类语系可以是德文、法文、英文等与英文有相似的其他字母类语系。专利技术背景自动从医疗文本中进行关系抽取是计算机科技工作者广泛研究的问题。目前的医疗关系抽取主要集中在对有标注的少量特定数据集进行关系分类的抽取，并且关系抽取技术不具有在医疗不同领域的可迁移性。与此同时，仅仅靠手工去发现这些医疗文本中有用的信息，为医生和患者提供方便，将会越来越复杂、困难。总而言之，目前的技术对于日益增长的非结构化医疗文本关系抽取是有很大的限制。
技术实现思路
目前的医疗关系抽取主要集中在对有标注的少量特定数据集进行关系分类的抽取，并且关系抽取技术不具有在医疗不同领域的可迁移性。本专利技术要解决的技术问题：针对现有的医疗关系抽取技术主要集中在对有标注的少量特定数据集进行关系分类的抽取，以及关系抽取技术不具有在医疗不同领域的可迁移性的缺陷，本专利技术提出了一种基于逐步扩展的字母类语系医疗文本关系抽取方法，该方法填补了现有技术的空白，针对不同医疗领域，该方法具有很好的迁移性，而且可对大量无关系标注数据集的输入流，创建基于逐步扩展的字母类语系医疗文本关系抽取。本专利技术采用的技术方案：一种基于逐步扩展的字母类语系医疗文本关系抽取方法，其特征与步骤如下：(1)将输入的医疗文本划分成句子，并使用实体识别技术，通过加载SNOMED医学字典库，识别出句子中的实体，并将句子切分，生成五元组句子；其中，每个五元组句子中只包含...

【技术保护点】
1.一种基于逐步扩展的字母类语系医疗文本关系抽取方法，其特征在于：步骤如下：(1)将输入的医疗文本划分成句子，并使用实体识别技术，通过加载SNOMED医学字典库，识别出句子中的实体，并将句子切分，生成五元组句子，形成五元组句子集合S′；其中，每个五元组句子中只包含两个实体对；(2)统计每个五元组句子中实体对的频率，将出现频率最高的少量实体对作为种子元组；(3)使用种子元组识别出匹配的五元组句子，通过特征选择，选择每个五元组句子中每个单词的四个特征：用word2vec得到的每个单词的词向量特征W、每个单词距离第一个实体的距离特征DisP1、每个单词距离第二个实体的距离特征DisP2、每个单词的词性特征POS，然后生成五元组向量；(4)对五元组向量进行聚类，选用类中心作为关系模板，抽取出符合该关系模板表达关系的新的五元组句子，将新的五元组句子对应的新的实体对加入到种子元组中，重复(3)(4)步骤，直到没有新的实体对产生。

【技术特征摘要】
1.一种基于逐步扩展的字母类语系医疗文本关系抽取方法，其特征在于：步骤如下：(1)将输入的医疗文本划分成句子，并使用实体识别技术，通过加载SNOMED医学字典库，识别出句子中的实体，并将句子切分，生成五元组句子，形成五元组句子集合S′；其中，每个五元组句子中只包含两个实体对；(2)统计每个五元组句子中实体对的频率，将出现频率最高的少量实体对作为种子元组；(3)使用种子元组识别出匹配的五元组句子，通过特征选择，选择每个五元组句子中每个单词的四个特征：用word2vec得到的每个单词的词向量特征W、每个单词距离第一个实体的距离特征DisP1、每个单词距离第二个实体的距离特征DisP2、每个单词的词性特征POS，然后生成五元组向量；(4)对五元组向量进行聚类，选用类中心作为关系模板，抽取出符合该关系模板表达关系的新的五元组句子，将新的五元组句子对应的新的实体对加入到种子元组中，重复(3)(4)步骤，直到没有新的实体对产生。2.根据权利要求1所述的基于逐步扩展的字母类语系医疗文本关系抽取方法，其特征在于：所述的步骤(1)进一步包括：(1a)对输入文本集合，根据自然语言符号，将其划分成句子集合S＝{s1,s2,…,sn}，并去除掉句子中的停用词，其中n代表文本中总共有n个句子；(1b)对于每一个句子si＝wi1wi2…wim，加载SNOMED字典库，使用正向匹配算法识别出句子中的实体：然后使用启发式的算法，合并产生关于疾病和症状有关的相邻新实体(比如ei2ei3)，其中eix(0≤x≤m)代表识别出来的实体，num(eix)代表一个实体中单词个数，m代表句子si有m个单词；(1c)将实体识别后的句子切分，保证每个句子切分后只出现两个实体，生成五元组句子，产生五元组句子集合S′＝{s′1,s′2,…,s′k}，其中k≥n；s′i＝<prei,ei1,midi,ei2,sufi>其中，(ei1，ei2)构成实体对，prei是实体ei1的前缀单词序列，midi是ei1和ei2之间的词序列，sufi是ei2之后的词序列。3.根据权利要求1所述的基于逐步扩展的字母类语系医疗文本关系抽取方法，其特征在于：所述的步骤(2)进一步包括：(2a)使用统计算法，统计五元组句子集合S′中每个五元组句子中的实体对，得到实体对频次，用哈希表保存，其中关键码值中的key是实体对，value是频次；将实体对按照频次从高到低的顺序排序，筛选出少量出现频次最高的实体对作为种子元组。4.根据权利要求1所述的基于逐步扩展的字母类语系医疗文本关系抽取方法，其特征在于：所述的步骤(3)进一步包括：(3a)使用种子元组从五元组句子集合S′中识别出匹配的五元组句子；(3b)使用word2vec训练得到五元组句子集合S′中每个五元组句子si′中每个单词的词向量特征W；(3c)得到五元组句子si′中每个单词wij距离第一个实体ei1的距离特征DisP1，每个单词wij距离第二个实体ei2的距离特征DisP2，每个单词wij的词性特征POS；(3d)这样一个单词共有四个局部特征W、DisP1、DisP2、POS，对应于四个维度的特征空间，w∈D1×D2×D3×D4，Dt是第t个局部特征库；使用特征向量矩阵，将单词的每个特征映射成向量形式；其中Mt∈Ru×N(t＝1,2,3,4)是第t个局部特征空间的向量矩阵，其中u表示第t个局部特征...

【专利技术属性】
技术研发人员：罗杰，杨云龙，金豪，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人