一种中医针灸领域知识自动抽取的实现方法技术

技术编号:12125133 阅读:184 留言:0更新日期:2015-09-25 13:24
本发明专利技术公开了一种中医针灸领域知识自动抽取的实现方法,包括步骤一)种子集构建、步骤二)语料库构建、步骤三)术语构建集的生成、步骤四)候选术语集的生成和步骤五)术语集的生成。本发明专利技术针对中医针灸领域文献的特点,研究并开发中医针灸领域术语抽取系统,从海量的中医针灸领域文献中快速有效地提取领域术语,形成结构化的数据并存入一个数据库,供用户查询和使用,填补了中医针灸领域知识自动抽取技术的空白。

【技术实现步骤摘要】

本专利技术涉及一种知识抽取技术,尤其涉及一种中医针灸领域知识自动抽取的实现 方法。
技术介绍
术语解释: (1)中医针灸领域的术语:主要涉及经络、腧穴、针灸疗法、中医学病症名及其他 含义抽象的针灸学术语。本技术方案将中医针灸领域术语分为如下五类: ①经络术语:指运行气血、联系脏腑和体表及全身各部的通道,包括:十二经脉、 奇经八脉、十五络脉等。 ②腧穴术语:指人体经络线上特殊的点区部位,多为神经末梢和血管较少的地方, 中医可以通过针灸或者推拿、点按、艾炙刺激相应的经络点来治疗疾病。 ③针灸疗法术语:包括刺法、灸法、拔罐、推拿等治疗方法以及治疗用具术语。 ④中医病症名术语:指具体的疾病名称。 ⑤抽象术语:指不能归入上述四类且含义抽象的针灸术语。 (2)中医针灸领域术语构件:是指那些更大概率地出现在中医针灸领域术语中的 字、单词或复合词,术语构件可以是词根、前缀、后缀或某些包含于中医针灸领域术语中的 字符串。 文本信息抽取研宄始于上世纪60年代,随后召开的MUC (Message Understanding Conference)和ACE (Automatic Content Extraction)评测会议推动了信息抽取技术的发 展。在生物医学领域,文本信息抽取主要解决的是从生物医学文本中识别出生物医学实体, 进而探宄它们之间可能存在的关系,包括:基因与基因的关系、蛋白质与蛋白质相互作用关 系、基因与疾病的关系、蛋白质与疾病的关系、基因与药物的关系、疾病与治疗的关系等,并 最终以人们可以理解的方式表达出来的问题。国内外对信息抽取的方法主要有三大类:基 于语言规则的方法、基于统计信息的方法、规则与统计相结合的方法。人们针对生物医学命 名实体识别任务展开了研宄;采用了包括词、关键词、蛋白质实体名距离、关联路径等特征 组合成特征模板,使用支持向量机统计模型来抽取蛋白质关系。人们将两个实体所在的句 子信息以及两个实体周围的局部上下文信息组合在一起应用于药物关系抽取,取得了较好 的结果。"基于半监督方法的生物医学事件抽取的研宄"采用基于半监督的方法,在生物医 学事件触发词识别上,先分析了各种特征对识别的影响,然后结合未标注语料信息,利用蛋 白质-触发词对关系,来进行触发词识别模型的构建;在生物医学事件元素的识别上,充分 利用特征在标注语料和未标注语料中的共现信息,将有强分类能力的稀疏特征进行融合, 从而将识别问题映射到一个新的维度空间去解决。这两种结合未标注语料的方法,都有效 的减轻了数据稀疏所带来的影响,提高了生物医学事件抽取的精度。 当前,生物医学领域信息抽取任务主要集中在对英文医学文献的研宄上,例如研 宄英文生物医学文献中命名实体的抽取;研宄英文医学文献中药物相互作用关系的抽取; 研宄英文医学文献中事件的抽取。对于在中医针灸领域文献中抽取知识的关键技术研宄还 是空白,缺乏对中医针灸领域文献信息抽取技术的研宄以及系统的开发。中医针灸是基于 汉民族文化,具有中国特色的医疗保健技术,其内容包括针灸理论、腧穴、针灸技术以及相 关器具。中医针灸文献作为针灸医学领域成果展示和学术交流的主要载体,但是其内容组 织和知识表达与英文文献以及中文通用领域文献都具有很大的差异性。
技术实现思路
为解决上述问题本专利技术提供了。本 专利技术的目的是针对中医针灸领域文献的特点,研宄并开发中医针灸领域术语抽取系统,从 海量的中医针灸领域文献中快速有效地提取领域术语,形成结构化的数据并存入一个数据 库,供用户查询和使用。 为达到上述技术效果,本专利技术的技术方案是: ,包括如下步骤: 步骤一)种子集构建:从爬取的医学论文中抽取关键字信息构建中医针灸领域术 语种子集; 步骤二)语料库构建:从爬取的医学论文中抽取中文摘要信息构建中医针灸领域 语料库; 步骤三)术语构建集的生成:调用术语构件生成器,用构件集中的构件切分中医 针灸领域术语种子集中的每个术语;将最佳切分中产生的新构件添加到构件集中,迭代学 习新构件直至算法收敛,生成中医针灸领域术语构件集;对种子集S中的一个术语s,用构 件集Tc中的构件进行切分,得到多个不同的切分结果,如公式(1): i表示术语s被构件集Tc中的构件切分后的某种切分结果,& (s)表示第i种切 分结果;t表示构件集中的构件;r表示术语被构件集中的构件切分后产生的字串;j表示 术语s被切分后,切分术语的构件t和切分后产生的字串r按顺序从左到右的编号; 切分R"s)的权重计算方法如公式⑵所示:其中,,a和0为调节参数,其值通过实验效 果调节; length(s)表示术语s的长度,即术语s所含汉字个数;m表示术语s的一种切分 结果Ri(s)中所含的构件数;tip表示术语s的第i个切分结果Ms)中从左到右数的第p 个构件;length(tip)表示构件tip所含汉字个数;p表示术语s切分结果Ms)中从第1个 构件到最后1个构件的变量;m'表示术语s的第i个切分结果Ri(s)中长度不为0的字串 &的个数;选择权重最大的切分为最佳切分,将其产生的新构件44,...,^i+1添加 到构件集Tc中;其中构件过滤规则如下: 1. 3. 1)丢弃最佳切分Rjs)首部、中部产生的单字长构件,将尾部产生的频率>1 的单字长构件添加到Tc中; 1. 3. 2)将最佳切分氏(s)中长度>1且频率>1的新构件添加到Tc中; 步骤四)候选术语集的生成:以中医针灸领域术语构件集为领域词典,调用候选 术语抽取器抽取中医针灸领域语料库中的术语,生成中医针灸领域候选术语集; 步骤五)术语集的生成:调用术语过滤器,利用规则集对候选术语集中的候选术 语进行过滤,生成中医针灸领域术语集。 进一步的改进,所述步骤四)中抽取中医针灸领域语料库中的术语的方法为:从 未标注无结构的中医针灸领域语料库中逐句读取字串,采用最大向前匹配算法,以术语构 件集Tc作为领域词典切分字串,切分结果如公式(3)所示: 其中,12 0, |x,,+11S: 0, |xp | > 0(2Sn)(TcttjeTc e表示从中医针灸语料库中读取的句子,tn,t12,…,tnin为术语构件, Xl,x2,…,xn+1是句子中分隔候选术语的普通字串; 抽取xk和x,+1之间的串(1 <女< /?)作为中医针灸领域候选术语,用术 语过滤规则模板过滤候选术语,生成中医针灸领域术语,直至中医针灸领域语料库中的语 料处理完毕。 进一步的改进,术语过滤的方法如下:首先通过中医针灸领域术语种子集获得术 语首词列表和术语尾词列表;然后术语过滤规则如下: 3. 1)限定首词:将候选术语依次在术语首词列表中检测,若候选术语左边第一个 构件不在首词列表中,则去除该构件,将剩余部分作为候选术语继续该操作,直至候选术语 左边第一个构件出现在术语首词列表中或候选术语字符串为空时结束; 3. 2)限定尾词:将候选术语依次在术语尾词列表中检测,若候选术语右边第一个 构件不在尾词列表中,则去除该构件,将剩余部分作为候选术语继续该操作,直至候选术语 右边第一个构件出现在术语尾词列表中或字符串为空时结束; 3. 3)若候选术语右边第一和第二个构件都出现在尾词列表中,则本文档来自技高网
...

【技术保护点】
一种中医针灸领域知识自动抽取的实现方法,其特征在于,包括如下步骤:步骤一)种子集构建:从爬取的医学论文中抽取关键字信息构建中医针灸领域术语种子集;步骤二)语料库构建:从爬取的医学论文中抽取中文摘要信息构建中医针灸领域语料库;步骤三)术语构建集的生成:调用术语构件生成器,用构件集中的构件切分中医针灸领域术语种子集中的每个术语;将最佳切分中产生的新构件添加到构件集中,迭代学习新构件直至算法收敛,生成中医针灸领域术语构件集;对种子集S中的一个术语s,用构件集Tc中的构件进行切分,得到多个不同的切分结果,如公式(1):Ri(s)=ri1ti1ri2ti2...rimtimrim+1---(1)]]>其中,tij∈Tc-{s},rij∉Tc-{s},Lengh(rij)≥0;]]>i表示术语s被构件集Tc中的构件切分后的某种切分结果,Ri(s)表示第i种切分结果;t表示构件集中的构件;r表示术语被构件集中的构件切分后产生的字串;j表示术语s被切分后,切分术语的构件t和切分后产生的字串r按顺序从左到右的编号;切分Ri(s)的权重计算方法如公式(2)所示:Weigh(Ri)=αmm+m′+βΣp=1mLength(tip)Length(s)---(2)]]>其中,α和β为调节参数,其值通过实验效果调节;length(s)表示术语s的长度,即术语s所含汉字个数;m表示术语s的一种切分结果Ri(s)中所含的构件数;tip表示术语s的第i个切分结果Ri(s)中从左到右数的第p个构件;length(tip)表示构件tip所含汉字个数;p表示术语s切分结果Ri(s)中从第1个构件到最后1个构件的变量;m’表示术语s的第i个切分结果Ri(s)中长度不为0的字串rij的个数;选择权重最大的切分为最佳切分,将其产生的新构件添加到构件集Tc中;其中构件过滤规则如下:1.3.1)丢弃最佳切分Ri(s)首部、中部产生的单字长构件,将尾部产生的频率>1的单字长构件添加到Tc中;1.3.2)将最佳切分Ri(s)中长度>1且频率>1的新构件添加到Tc中;步骤四)候选术语集的生成:以中医针灸领域术语构件集为领域词典,调用候选术语抽取器抽取中医针灸领域语料库中的术语,生成中医针灸领域候选术语集;步骤五)术语集的生成:调用术语过滤器,利用规则集对候选术语集中的候选术语进行过滤,生成中医针灸领域术语集。...

【技术特征摘要】

【专利技术属性】
技术研发人员:孙水华
申请(专利权)人:福建工程学院
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1