一种中药社团信息生成方法、系统、装置和存储介质制造方法及图纸

技术编号:21609202 阅读:33 留言:0更新日期:2019-07-13 19:30
本发明专利技术公开了一种中药社团信息生成方法、系统、装置和存储介质,所述方法包括建立方剂集合,计算所述方剂集合中的各中药药物对方剂集合中的其他中药药物的依赖度,计算各相应中药药物之间的关联度,建立中药网络,计算所述中药网络中的各条边的游走概率,根据计算得到的各条边的游走概率进行随机游走,从而得到多个中药序列,对各所述中药序列进行向量化处理,将被归类为同一类别的中药药物作为中药社团进行输出等步骤。本发明专利技术可以发现重叠药物社团,发现潜在的中药配伍,本发明专利技术与现有的基于关联规则或社团发现的算法相比具有更低的计算复杂度,可以达到更高的计算效率。本发明专利技术广泛应用于药学信息学技术领域。

A Method, System, Device and Storage Medium for Information Generation of Traditional Chinese Medicine Societies

【技术实现步骤摘要】
一种中药社团信息生成方法、系统、装置和存储介质
本专利技术涉及药学信息学
,尤其是一种中药社团信息生成方法、系统、装置和存储介质。
技术介绍
中医是中国国粹之一,经典的中医方剂(药方)是经历实践的考验的中医理论精华,具有巨大的医学研究价值。中医理论讲究药物配伍,即一味中药方剂通常是由多种中药药物搭配组成的,中药方剂的医疗功能来源于作为其组成成分的多种中药药物本身及其组合关系,因此对中医方剂的一个研究方向是研究中药药物之间的配伍关系,希望可以根据现有的中医方剂信息进行处理,输出具有特定组合规律的全新的中医药物组合,从而挖掘得到具有更好疗效的新方剂。现有的新方剂挖掘技术主要是基于传统的关联规则或社团发现算法进行的,因此具有较明显的缺点。关联规则方法,只是单纯地把方剂中的药物的共现频率及次数作为衡量药物之间的关系紧密性的依据,虽然关联规则方法在一定程度上可以反映出一些常见的药物搭配规律,但只是单纯基于共现规律往往会忽略中药搭配的复杂性;由于中药配伍中有相须、相使、相畏、相杀、相恶、相反等六种关系,如何将中药方剂将其背后的搭配原则挖掘出来也是基于关联规则的方法难以做到的。基于社团发现的方法一般具有局限性,非重叠社团发现算法虽然能够发现中药复杂理论的部分知识,但是却忽略了药物社团使用的重叠性;并且中药属性较多药物的关系复杂,社团发现算法往往难以充分利用临床诊疗数据,导致一些珍贵的中药数据难以被有效利用,使得其难以把中药间复杂的关系表现出来。术语解释:GraphEmbedding:GraphEmbedding是图分析问题(graphanalytics)和表征学习问题(representationlearning)的结合的模型。graphanalytics目的是从图中挖掘出有有用有价值的信息。而representationlearning则可以把数据转换成向量表示使得更容易使用各种成熟的数据挖掘算法,比如分类、预测、聚类算法等提取数据中有用的有价值的信息。GraphEmbeding模型的目标就是结合上述二者,从图数据中学习出能保留图中的有用信息(比如图结构信息,图节点之间的关联信息)的向量表达。随机游走(randomwalk):基于随机游走的GraphEmbedding方法基本思路是,从图中采样出路径集合,然后基于采样出来的路径来学习图中节点或边的特征向量表示。由于图可以被采样出来的路径所表示,所以图相当于被转换成一个由节点组成的“文档”,因此以word2vec为代表WordEmbedding方法都可以被应用在此。第一个基于随机游走思想提出的GraphEmbedding的方法是DeepWalk,DeepWalk是将随机游走及Word2Vec结合起来的GraphEmbedding方法。模糊聚类:模糊聚类分析是一种采用模糊数学语言对事物按一定的要求进行描述和分类的数学方法。模糊聚类分析一般是指根据研究对象本身的属性来构造模糊矩阵,并在此基础上根据一定的隶属度来确定聚类关系,即用模糊数学的方法把样本之间的模糊关系定量的确定,从而客观且准确地进行聚类。聚类就是将数据集分成多个类或簇,使得各个类之间的数据差别应尽可能大,类内之间的数据差别应尽可能小,即为“最小化类间相似性,最大化类内相似性”原则。
技术实现思路
为了解决上述技术问题,本专利技术的目的在于提供一种中药社团信息生成方法、系统、装置和存储介质。一方面,本专利技术包括一种中药社团信息生成方法,包括以下步骤:建立方剂集合;所述方剂集合包括多个方剂,各所述方剂分别由相应的中药药物组成;分别计算所述方剂集合中的各中药药物对方剂集合中的其他中药药物的依赖度;根据所述各依赖度,计算各相应中药药物之间的关联度;建立中药网络;所述中药网络包括多个分别与所述方剂集合中的各中药药物一一对应的节点;当任两个所述节点所对应的中药药物之间的关联度大于预设的第一阈值时,存在一条连接该两个节点的具有权重的边,反之不存在连接该两个节点的边;所述边的权重等于这条边所连接的两个节点所对应的中药药物之间的关联度;使用随机游走算法计算所述中药网络中的各条边的游走概率,从而对所述中药网络进行有向化处理;在经过有向化处理的所述中药网络中,根据计算得到的各条边的游走概率进行随机游走,从而得到多个中药序列;各所述中药序列由随机游走过程中所经过的节点对应的中药药物组成;对各所述中药序列进行向量化处理,从而得到多个中药向量;使用聚类算法对各所述中药向量进行处理;所述聚类算法用于将各所述中药向量对应的中药药物归类为相应的类别;将被归类为同一类别的中药药物作为中药社团进行输出。进一步地,所述依赖度的计算公式为:式中,Ind(h2|h1)为中药药物h2对中药药物h1的依赖度,|h1|为中药药物h1在所述方剂集合中的出现次数,f(h1,h2)i为同时包含中药药物h1和中药药物h2的方剂中的第i个方剂,f(h1,h2)i.length为方剂f(h1,h2)i包含的中药药物的数量。进一步地,所述关联度的计算公式为:式中,为中药药物h1和中药药物h2之间的关联度,Ind(h2|h1)为中药药物h2对中药药物h1的依赖度,Ind(h1|h2)为中药药物h1对中药药物h2的依赖度,|h1|为中药药物h1在所述方剂集合中的出现次数,|h2|为中药药物h2在所述方剂集合中的出现次数,k为预设的第二阈值。进一步地,所述使用随机游走算法所用的计算公式为以下的softmax函数:式中,σ(Z)j为所述中药网络中节点Z所连接的第j条边的游走概率,Zj为中药网络中节点Z所连接的第j条边的权重,i为序号,K为中药网络中与节点Z连接的所有边的数量。进一步地,所述在经过有向化处理的所述中药网络中,根据计算得到的各条边的游走概率进行随机游走,从而得到多个中药序列这一步骤,具体包括:设置所述中药网络中各节点所对应的游走次数;设置每次随机游走所经过的边的条数;根据所述游走次数、经过的边的条数和各条边的游走概率,遍历所述中药网络中所有节点分别作为起点进行随机游走;将各次随机游走过程中经过的节点所对应的中药药物按游走顺序进行输出,从而得到多个中药序列。进一步地,所述对各所述中药序列进行向量化处理,从而得到多个中药向量这一步骤,具体包括:将各所述中药序列分别作为文档输入到Word2vec算法中的skip-gram模型中;接收所述skip-gram模型中的HiddenLayerLinearNeurons隐藏层神经元输出的权重;将所述隐藏层神经元输出的权重作为中药向量进行返回。进一步地,所述使用聚类算法对各所述中药向量进行处理这一步骤,具体包括:对FuzzyC-Means聚类算法进行类别设定;各所述类别分别对应相应的第三阈值;将各所述中药向量输入到FuzzyC-Means聚类算法中,接收FuzzyC-Means聚类算法输出的与各所述中药向量对应的归类概率;当所述归类概率达到相应的第三阈值时,将该归类概率对应的中药向量对应的中药药物归类为该第三阈值对应的类别。另一方面,本专利技术还包括一种中药社团信息生成系统,包括:方剂集合模块,用于建立方剂集合;所述方剂集合包括多个方剂,各所述方剂分别由相应的中药药物组成;依赖度计算模块,用于分别计算所述方剂集合中的各中药药物对方剂集本文档来自技高网
...

【技术保护点】
1.一种中药社团信息生成方法,其特征在于,包括以下步骤:建立方剂集合;所述方剂集合包括多个方剂,各所述方剂分别由相应的中药药物组成;分别计算所述方剂集合中的各中药药物对方剂集合中的其他中药药物的依赖度;根据所述各依赖度,计算各相应中药药物之间的关联度;建立中药网络;所述中药网络包括多个分别与所述方剂集合中的各中药药物一一对应的节点;当任两个所述节点所对应的中药药物之间的关联度大于预设的第一阈值时,存在一条连接该两个节点的具有权重的边,反之不存在连接该两个节点的边;所述边的权重等于这条边所连接的两个节点所对应的中药药物之间的关联度;使用随机游走算法计算所述中药网络中的各条边的游走概率,从而对所述中药网络进行有向化处理;在经过有向化处理的所述中药网络中,根据计算得到的各条边的游走概率进行随机游走,从而得到多个中药序列;各所述中药序列由随机游走过程中所经过的节点对应的中药药物组成;对各所述中药序列进行向量化处理,从而得到多个中药向量;使用聚类算法对各所述中药向量进行处理;所述聚类算法用于将各所述中药向量对应的中药药物归类为相应的类别;将被归类为同一类别的中药药物作为中药社团进行输出。

【技术特征摘要】
1.一种中药社团信息生成方法,其特征在于,包括以下步骤:建立方剂集合;所述方剂集合包括多个方剂,各所述方剂分别由相应的中药药物组成;分别计算所述方剂集合中的各中药药物对方剂集合中的其他中药药物的依赖度;根据所述各依赖度,计算各相应中药药物之间的关联度;建立中药网络;所述中药网络包括多个分别与所述方剂集合中的各中药药物一一对应的节点;当任两个所述节点所对应的中药药物之间的关联度大于预设的第一阈值时,存在一条连接该两个节点的具有权重的边,反之不存在连接该两个节点的边;所述边的权重等于这条边所连接的两个节点所对应的中药药物之间的关联度;使用随机游走算法计算所述中药网络中的各条边的游走概率,从而对所述中药网络进行有向化处理;在经过有向化处理的所述中药网络中,根据计算得到的各条边的游走概率进行随机游走,从而得到多个中药序列;各所述中药序列由随机游走过程中所经过的节点对应的中药药物组成;对各所述中药序列进行向量化处理,从而得到多个中药向量;使用聚类算法对各所述中药向量进行处理;所述聚类算法用于将各所述中药向量对应的中药药物归类为相应的类别;将被归类为同一类别的中药药物作为中药社团进行输出。2.根据权利要求1所述的一种中药社团信息生成方法,其特征在于,所述依赖度的计算公式为:式中,Ind(h2|h1)为中药药物h2对中药药物h1的依赖度,|h1|为中药药物h1在所述方剂集合中的出现次数,f(h1,h2)i为同时包含中药药物h1和中药药物h2的方剂中的第i个方剂,f(h1,h2)i.length为方剂f(h1,h2)i包含的中药药物的数量。3.根据权利要求2所述的一种中药社团信息生成方法,其特征在于,所述关联度的计算公式为:式中,为中药药物h1和中药药物h2之间的关联度,Ind(h2|h1)为中药药物h2对中药药物h1的依赖度,Ind(h1|h2)为中药药物h1对中药药物h2的依赖度,|h1|为中药药物h1在所述方剂集合中的出现次数,|h2|为中药药物h2在所述方剂集合中的出现次数,k为预设的第二阈值。4.根据权利要求1所述的一种中药社团信息生成方法,其特征在于,所述使用随机游走算法所用的计算公式为以下的softmax函数:式中,σ(Z)j为所述中药网络中节点Z所连接的第j条边的游走概率,Zj为中药网络中节点Z所连接的第j条边的权重,i为序号,K为中药网络中与节点Z连接的所有边的数量。5.根据权利要求1所述的一种中药社团信息生成方法,其特征在于,所述在经过有向化处理的所述中药网络中,根据计算得到的各条边的游走概率进行随机游走,从而得到多个中药序列这一步骤,具体包括:设置所述中药网络中各节点所对应的游走次数;设置每次随机游走所经过的边的条数;根据所述游走次数、经过的边的条数和各条边的游走概率,遍历所述中药网络中所有节点分别作为起点进行随机...

【专利技术属性】
技术研发人员:赵淦森王剑飞黎子靖庄序填王桂兰
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1