一种基于TF‑IDF改进算法的疾病症状推导方法技术

技术编号:13977086 阅读:62 留言:0更新日期:2016-11-11 17:33
本发明专利技术提供一种基于TF‑IDF改进算法的疾病症状推导方法,包括下列步骤:1)请医学专家根据科室分类编写疾病症状对应字典;2)分析每一个科室的文档,统计症状词频TF;3)分析所有的文档,统计计算反向词频ITF;4)查询每个疾病的搜索引擎月查询量,并找出最大的查询量,进而计算出搜索引擎查询指数。5)基于以上计算出的TF,IDF和搜索引擎查询指数按照公式计算出最终的权重。本发明专利技术解决了目前传统疾病症状推导方法推理逻辑复杂,依赖于医学专家经验知识,并且医学知识形式化困难等缺陷,通过TF‑IDF算法计算出的词频和搜索引擎搜索指数加权求和的方法,极大的提高了目前推导方法的效率,并利用搜索引擎大数据提高了导诊的准确性。

【技术实现步骤摘要】

本软件方法涉及一种基于TF-IDF的疾病症状推导方法,对现有的TF-IDF算法做了改进,综合运用了大数据技术和机器学习算法来提高疾病导诊的有效性。
技术介绍
随着互联网和传统行业的结合越来越紧密,人们通过网络获取一些简单疾病的初步诊断结果来指导就医行为已经变得越来越普遍。在这样的大趋势下,应用计算机技术,人工智能技术进行疾病初步诊断、导医的应用如雨后春笋般涌现。智能疾病导诊系统本质上属于一种医疗专家系统。国外较早出现的有MYCIN系统和Internist-1/QMR系统;国内有2006年胡波设计实现的基于知识库的AISCP导医系统,2011年习明实现的基于web的社区智能医疗服务系统。但这些系统几乎都是基于知识库和推理规则的专家系统,需要医疗专家根据自己的知识经验制定一套完整的推理规则。然而由于医学专家诊断疾病是一个创造性的过程,很难将这种知识、经验用计算机语言表达出来,所以专家系统在医学领域一直没有得到很好的利用。
技术实现思路
为了克服现有疾病症状推导方法的缺陷,本方法提出一种基于TF-IDF算法的疾病权重计算方法。并以该计算方法为指导,构建了自己的智能导诊系统。用户输入自己的症状,年龄,性别信息,系统能根据动态调整的症状疾病权重,查询出最可能患的疾病。TF-IDF(term frequency-inverse document frequency)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。它的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上是:TF*IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档中出现的频率。 tf i , n = n i Σ k n k ]]>其中ni表示词ti在文档n中出现的次数;∑knk表示文档n中词的总个数;IDF逆向文件频率的主要思想是:如果包含词条ti的文档越少,也就是|{d:ti∈d本文档来自技高网...

【技术保护点】
一种基于TF‑IDF改进算法的疾病症状推导方法,其特征在于,通过分析医学专家编写的疾病症状对应文档,应用TF‑IDF算法建立症状和疾病之前的对应权重。为了进一步提高权重的准确性,本方法实时爬取疾病搜索引擎查询次数,计算出搜索引擎搜索指数,对TF‑IDF算法所求权重进行进一步修正。疾病症状权重建立后,用户输入症状,系统查询预先计算好的保存在数据库中的症状疾病对应权重,倒排序后返回给用户。应用该推导方法可以有效的分析出症状和疾病的对应关系强弱,最终实现通过多个症状组合判定用户可能患的疾病,为用户就医前提供更多指导。该方法包含以下步骤:1)基于TF‑IDF算法计算疾病症状权重。TF即词频,在本方法中指的是症状在某科室文档中出现的频率。TF=症状在该文档中出现的次数/文档中所有症状词出现的次数。IDF表示的是一个症状和其他科室疾病的关联强弱,如果一个症状在所有科室文档中都出现的比较多,则该症状和每个疾病的关联度就不是很强。IDF=症状关联疾病个数/文档中所有疾病个数。2)计算某一个疾病在搜索引擎中的查询指数。搜索引擎查询指数指的是某疾病在搜索引擎中被查询的次数和疾病在搜索引擎中的查询次数的最大值的比值。...

【技术特征摘要】
1.一种基于TF-IDF改进算法的疾病症状推导方法,其特征在于,通过分析医学专家编写的疾病症状对应文档,应用TF-IDF算法建立症状和疾病之前的对应权重。为了进一步提高权重的准确性,本方法实时爬取疾病搜索引擎查询次数,计算出搜索引擎搜索指数,对TF-IDF算法所求权重进行进一步修正。疾病症状权重建立后,用户输入症状,系统查询预先计算好的保存在数据库中的症状疾病对应权重,倒排序后返回给用户。应用该推导方法可以有效的分析出症状和疾病的对应关系强弱,最终实现通过多个症状组合判定用户可能患的疾病,为用户就医前提供更多指导。该方法包含以下步骤:1)基于TF-IDF算法计算疾病症状权重。TF即词频,在本方法中指的是症状在某科室文档中出现的频率。TF=症状在该文档中出现的次数/文档中所有症状词出现的次数。IDF表示的是一个症状和其他科室疾病的关联强弱,如果一个症状在所有科室文档中都出现的比较多,则该症状和每个疾病的关联度就不是很强。IDF=症状关联疾病个数/文档中所有疾病个数。2)计算某一个疾病在搜索引擎中的查询指数。搜索引擎查询指数指的是某疾病在搜索引擎中被查询的次数和疾病在搜索引擎中的查询次数的最大值的比值。2.根据权利1所述的基于TF-IDF算法的疾病权重计算方法,其特征在于,包括以下步骤;步骤1:医学专家准备...

【专利技术属性】
技术研发人员:周作建杨阳胡云周作霞
申请(专利权)人:江苏华康信息技术有限公司十方健康管理江苏有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1