一种基于机器学习和文本规则的中药药理作用识别方法及系统技术方案

技术编号:23086786 阅读:76 留言:0更新日期:2020-01-11 01:45
本发明专利技术属于医学或兽医学;卫生学技术领域,公开了一种基于机器学习和文本规则的中药药理作用识别方法及系统,首先基于BIO规则构建训练语料库;然后提取文本特征并对特征进行数字化,采用组合多分类式SVM构建药理作用识别模型;最后采用基于规则的错误驱动学习(TBL)方法对SVM模型输出的标注结果进行后处理,提高实体识别精度。本发明专利技术将机器学习方法与基于规则的文本挖掘相关技术相结合,实现从中药文献中自动识别有效的中药药理作用信息,为中药药理作用信息化打下基础,与传统的药理作用研究方法相比,减少人工提取时间以及经济损耗,实现了在中药药理作用实体识别研究方法学上的改进。

【技术实现步骤摘要】
一种基于机器学习和文本规则的中药药理作用识别方法及系统
本专利技术属于医学或兽医学;卫生学
,尤其涉及一种基于机器学习和文本规则的中药药理作用识别方法及系统。
技术介绍
目前,最接近的现有技术:目前,针对中药药理作用还没有使用计算机的方法进行识别的相关报道,因此在现有技术部分内容可述的并不多,先前的方法都是通过人工阅读进行的。中医治病常以方剂为单位,研究方剂对疾病的作用机制有助于解释中医方剂配伍以及治病的科学性。而方剂是由单味药物组成,研究单味药的药理作用将有助于方剂药理作用以及方剂对疾病的作用机制研究。近年来研究人员针对中药的现代药理作用开展了大量研究工作,并积累了海量的中药药理文献数据。在国内早期对于药理实体识别的研究中,主要采用人工结合临床实验的方法来归纳总结中药方剂中药物的药理作用,取得了一定的成果,但该方法往往需要消耗过高的时间及人力成本。近年来,基于自然语言处理技术的命名实体识别用于人名、地名、机构、国家等特定类型词的识别,主要采用基于词典、规则、或将两者相结合使用,该方法需要人工制定词典以及规则,通过总结实体本文档来自技高网...

【技术保护点】
1.一种基于机器学习和文本规则的中药药理作用识别方法,其特征在于,所述基于机器学习和文本规则的中药药理作用识别方法包括:/n步骤一,获取包含中药药理作用实体的文档集;/n步骤二,获取的中药药理作用文档集进行预处理,去除文献中对药理作用识别无用的干扰信息,包括期刊信息、作者信息、参考文献、邮编信息、邮箱信息等,提取正文内容并保存为txt文档;/n步骤三,基于BIO规则对文档集的文本进行词性标注,得到规范化语料库,并将规范化语料库划分分为训练语料和测试语料;/n步骤四,从训练语料中提取对实体识别有效的各类特征信息;/n步骤五,将提取的文本特征信息转化为数字特征向量,并采用这些数字特征向量,基于五折...

【技术特征摘要】
1.一种基于机器学习和文本规则的中药药理作用识别方法,其特征在于,所述基于机器学习和文本规则的中药药理作用识别方法包括:
步骤一,获取包含中药药理作用实体的文档集;
步骤二,获取的中药药理作用文档集进行预处理,去除文献中对药理作用识别无用的干扰信息,包括期刊信息、作者信息、参考文献、邮编信息、邮箱信息等,提取正文内容并保存为txt文档;
步骤三,基于BIO规则对文档集的文本进行词性标注,得到规范化语料库,并将规范化语料库划分分为训练语料和测试语料;
步骤四,从训练语料中提取对实体识别有效的各类特征信息;
步骤五,将提取的文本特征信息转化为数字特征向量,并采用这些数字特征向量,基于五折交叉验证训练组合多分类式SVM实体识别模型;
步骤六,利用构建的模型对输入文献的药理作用实体进行自动识别,并采用基于规则的错误驱动学习TBL方法对SVM模型输出的识别结果进行纠错处理。


2.如权利要求1所述基于机器学习和文本规则的中药药理作用识别方法,其特征在于,步骤一中,所述文档集获取方法具体包括:
(1)利用关键词从中文期刊文献数据库进行文献检索,并以PDF格式下载文献;
(2)以及从百度百科进行检索,使用网页爬虫的方法将得到的信息保存成TXT文本。


3.如权利要求1所述基于机器学习和文本规则的中药药理作用识别方法,其特征在于,步骤三,所述基于BIO规则对文献中的文本进行词性标注具体包括:
(1)根据文献的标点“。”对句子进行分割;
(2)基于BIO规则对(1)中分割好的句子进行序列标注,其中B表示实体开始,I表示实体除去开头的其他部分,O表示实体以外的部分。


4.如权利要求1所述基于机器学习和文本规则的中药药理作用识别方法,其特征在于,步骤四中,所述从文本中提取对实体识别有效的各类特征信息具体包括:
有效文本特征信息,包括原词特征、长短句特征、上下文词性特征三种;
(1)提取原词特征:提取当前语料分词后的单个词作为原词特征;
(2)提取长句与短句特征:长句被标记为L,短句被标记为S,在药理作用的实体识别中,相比长句式,短句往往更可能表达一个方剂中药物的药理作用;
(3)识别句子中词语的词性,提取词性特征组合,将句子中词语提取为动词+名词、动词+多个名词或使令型动词短语等多种形式。


5.如权利要求1所述基于机器学习和文本规则的中药药理作用识别方法,其特征在于,步骤五中,所述文本特征转化以及构建多分类SVM实体识别模型具体包括:
(1)特征数字化:采用工具包YamCha组件将文本数据中的字符串特征格式化后输入到支持向量机;YamCha组件计算所有特征的个数并把每个特征转化成一个正整数,最后将每一行的特征转化成SVM的特征向量。其形式为:
+11207:1
-1370:2
...

【专利技术属性】
技术研发人员:李巧勤刘勇国杨尚明蒋羽李杨何家欢蔡茁
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1