当前位置: 首页 > 专利查询>南京大学专利>正文

一种中药方剂核心药物的发现方法技术

技术编号:11833290 阅读:213 留言:0更新日期:2015-08-05 19:42
一种中药方剂核心药物的发现方法,由改进聚类算法和加权TF-IDF算法两部分组成,聚类算法包括方剂数据的预处理、聚类距离函数的选择和聚类挖掘算法三部分,其中方剂数据的预测理将方剂数据处理成适合聚类算法的模型;聚类距离的选择用于选择合理的聚类距离函数;距离挖掘算法用于将相似的方剂聚类成一个簇;加权TF-IDF算法用于计算药物的权重,发明专利技术的权重计算公式结合聚类结果、药物顺序重要度、TF-IDF算法三部分;算法具有较高的准确性。

【技术实现步骤摘要】

:本专利技术主要涉及中药方剂核心药物的发现,用于挖掘治疗某种病症的方剂中的核心药物。
技术介绍
:药物是方剂的基本组成成份。众所周知,“君臣佐使”是中医组方的基本原则。方剂的药物按照其在方剂中所起的作用分别分为君药、臣药、佐药、使药,简称为“君臣佐使”。各种药在方剂中所起的作用是不一样的。找到中药方剂中对治疗某种疾病起主要作用的核心药物,能够揭示中药方剂配伍中的用药规律,对于年轻的中医从业者学习名老中医经验、掌握中医理论精髓以及进一步研究中医理论,有着非常重要的作用。现存方剂数据库已有近十万首方剂,涉及一万多种药物。针对某种特定疾病的方剂往往也涉及几百首方剂和药物。传统的通过人工的方法去提取这些方剂的核心药物已经无法适应现代需求,迫切需要计算机辅助方法。目前关于中药方剂核心药物的挖掘,主要有基于频次的方法和基于PageRank的方法。基于频次的方法容易受药物出现频次的影响,挖掘结果不够准确。基于PageRank的方法也存在排名不够合理,算法相对难以理解等特点,不能很好满足需求。
技术实现思路
:本专利技术需要解决的技术问题是,提供一种中药方剂核心药物的方法,尤其是基于改进K-Means聚类和加权TF-IDF的中药方剂核心药物提取方法,主要针对目前已有方法容易受药物出现频次影响、挖掘结果不够准确、算法复杂等问题,提出的通用型、准确有效、合理的中药方剂核心药物挖掘方法。本专利技术解决上述问题所采取的技术方案为:一种中药方剂核心药物的发现方法即基于改进K-Means聚类和加权TF-IDF的中药方剂核心药物提取方法,其特征在于,由改进聚类算法和加权TF-IDF算法两部分组成,聚类算法包括方剂数据的预处理、聚类距离函数的选择和聚类挖掘算法三部分,其中方剂数据的预测理将方剂数据处理成适合聚类算法的模型;聚类距离的选择用于选择合理的聚类距离函数;距离挖掘算法用于将相似的方剂聚类成一个簇;加权TF-IDF算法用于计算药物的权重,专利技术的权重计算公式结合聚类结果、药物顺序重要度、TF-IDF算法三部分;所述的方剂数据的预处理,其采用的是向量空间模型。每首方剂抽象成一个向量,方剂中的药物表示为向量的某一维。如果方剂包含某种药物,则其对应的维为1,否则为0;所述的聚类距离函数的选择,采用的是余弦距离函数,其距离为:能够合理度量两个方剂的相似性;这里αi,βi分别是方剂向量;所述的聚类挖掘算法,其采用的是改进的基于节点部分分配的K-Means算法;算法预先设置一个阈值α,在将节点分配到中心点的时候,对于到所有中心点的距离都超过α的节点,暂时不把它分配到任何中心节点所表示的聚类;这样在一轮分配结束的时候可能会存在一些未被分配的节点。在下一轮分配的时候,从这些节点中在随机选取一些种子节点作为中心点;这样通过不断的迭代,最终数据集中的每个节点都会被分配到合适的分类中;所述的药物顺序重要度,其指的是方剂组成中某一药物的重要程度;其定义为:这里hi是方剂中的第i味药物,I(hi)为药物hi的顺序重要度;药物h在所有方剂中的总重要度定义为:所述的TF-IDF算法,指的是信息学中的词频-逆文档频率算法;一个词的权重定义为:这里ni,j是词频,表示单词ti在文件dj出现次数。|D|表示语料库中的文件总数,|{j:ti∈dj本文档来自技高网...

【技术保护点】
一种中药方剂核心药物的发现方法,其特征在于,由改进聚类算法和加权TF‑IDF算法两部分组成,聚类算法包括方剂数据的预处理、聚类距离函数的选择和聚类挖掘算法三部分,其中方剂数据的预测理将方剂数据处理成适合聚类算法的模型;聚类距离的选择用于选择合理的聚类距离函数;距离挖掘算法用于将相似的方剂聚类成一个簇;加权TF‑IDF算法用于计算药物的权重,专利技术的权重计算公式结合聚类结果、药物顺序重要度、TF‑IDF算法三部分;所述的方剂数据的预处理,其采用的是向量空间模型。每首方剂抽象成一个向量,方剂中的药物表示为向量的某一维。如果方剂包含某种药物,则其对应的维为1,否则为0;所述的聚类距离函数的选择,采用的是余弦距离函数,其距离为:能够合理度量两个方剂的相似性;这里αi,βi分别是方剂向量;所述的聚类挖掘算法,其采用的是改进的基于节点部分分配的K‑Means算法;算法预先设置一个阈值α,在将节点分配到中心点的时候,对于到所有中心点的距离都超过α的节点,暂时不把它分配到任何中心节点所表示的聚类;这样在一轮分配结束的时候可能会存在一些未被分配的节点。在下一轮分配的时候,从这些节点中在随机选取一些种子节点作为中心点;这样通过不断的迭代,最终数据集中的每个节点都会被分配到合适的分类中;所述的药物顺序重要度,其指的是方剂组成中某一药物的重要程度;其定义为:这里hi是方剂中的第i味药物,I(hi)为药物hi的顺序重要度;药物h在所有方剂中的总重要度定义为:I(h)=Σi=1mIi(h);]]>所述的TF‑IDF算法,指的是信息学中的词频‑逆文档频率算法;一个词的权重定义为:这里ni,j是词频,表示单词ti在文件dj出现次数。|D|表示语料库中的文件总数,|{j:ti∈dj}|表示包含单词ti的文件的数目;根据下式计算药物h的权重W(h,x),用于计算药物h在治疗某种病x的权重指数,定义为:W(h,x)=(Σci∈set(x)I(h∈ci))×log(||all_set||Σcj∈all_setcount(h∈cj)),]]>公式前半部分(Σci∈set(x)I(h∈ci))]]>为药物在治疗某种病的方剂的词频,后半部分表示整个方剂数据库聚类数除以药物h在整个方剂数据库中出现的权重的商的对数,为药物在方剂数据总库的“逆文档频率”;公式中的count(h∈cj)定义为I(h∈ci)定义为两个子公式中,h表示具体的药物,ci表示方剂的聚类i,f表示某首方剂,||ci||表示方剂聚类ci中包含的方剂的数目,bool(h∈f)表示药物h是否出现在方剂f中,出现为1,不出现为0;count(h∈ci)表示药物h在方剂聚类ci中出现的次数除以方剂聚类的方剂数,值域是[0,1];If(h)为药物h在方剂f中的顺序重要度,定义这里i表示药物h是方剂f的第i味药物;I(h∈ci)表示药物h在方剂聚类ci中的总顺序重要度除以聚类方剂数;set(x)表示治疗病x的所有方剂,all_set表示整个方剂数据库;表示药物h在治疗病x的方剂聚类中出现的权重,为药物“加权词频”。...

【技术特征摘要】
1.一种中药方剂核心药物的发现方法,其特征在于,由改进聚类算法和加权TF-IDF算
法两部分组成,聚类算法包括方剂数据的预处理、聚类距离函数的选择和聚类挖掘算法三部
分,其中方剂数据的预测理将方剂数据处理成适合聚类算法的模型;聚类距离的选择用于选
择合理的聚类距离函数;距离挖掘算法用于将相似的方剂聚类成一个簇;
加权TF-IDF算法用于计算药物的权重,发明的权重计算公式结合聚类结果、药物顺序重
要度、TF-IDF算法三部分;
所述的方剂数据的预处理,其采用的是向量空间模型。每首方剂抽象成一个向量,方剂
中的药物表示为向量的某一维。如果方剂包含某种药物,则其对应的维为1,否则为0;
所述的聚类距离函数的选择,采用的是余弦距离函数,其距离为:
能够合理度量两个方剂的相似性;这里αi,βi分别是方剂
向量;
所述的聚类挖掘算法,其采用的是改进的基于...

【专利技术属性】
技术研发人员:张雷刘焕锐资帅王强吴和生谢俊元
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1