一种基于症状特征的疾病分类的系统、设备及介质技术方案

技术编号:32128954 阅读:20 留言:0更新日期:2022-01-29 19:23
本发明专利技术提出了一种基于症状特征的疾病分类的系统、设备及介质,通过疾病症状收集单元收集各种疾病名称,以及多个对应的症状描述性文本,为疾病筛查收集足够多的样本数据;通过疾病症状扩展单元对疾病名称及其对应的症状词库进行动态扩展,保证系统的不断升级;疾病症状筛查模型通过症状的文本性描述实现对疾病的筛查,疾病症状筛查单元根据疾病症状筛查模型的筛查结果推荐被检者可能患有的疾病和健康问题以及个性化健康管理方案。本发明专利技术通过对文本性描述进行分词提取关键词的处理,并构建疾病症状筛查模型,实现了通过症状的文字性描述就可以得知对应疾病的技术效果。描述就可以得知对应疾病的技术效果。描述就可以得知对应疾病的技术效果。

【技术实现步骤摘要】
一种基于症状特征的疾病分类的系统、设备及介质


[0001]本专利技术涉及疾病诊断领域,尤其涉及一种基于症状特征的疾病分类的系统、设备及介质。

技术介绍

[0002]现代社会,许多种疾病的症状非常相似,然而其病因却可能不尽相同,对应的治疗方案也可能天差地别,许多人仅仅通过上网搜索自身部分症状就判断自己患有何种疾病,既不科学,也容易造成恐慌和焦虑情绪。因此,需要一种科学的系统,通过症状的文字性描述就可以得知对应疾病,是亟待解决的技术问题。

技术实现思路

[0003]有鉴于此,本专利技术提出了一种基于症状特征的疾病分类的系统、设备及介质,用于解决无法通过症状的文字性描述就可以得知对应疾病的问题。
[0004]本专利技术的技术方案是这样实现的:
[0005]本专利技术第一方面,公开一种基于症状特征的疾病分类的系统,所述系统包括:
[0006]疾病症状收集单元:用于收集各种疾病名称,以及多个对应的症状描述性文本,将所述疾病名称对应的所有症状描述性文本以疾病名称的症状词库方式存入疾病症状数据库;
[0007]疾病症状扩展单元:对于已存在与疾病症状数据库中的疾病名称,在其对应的症状词库中添加关键词以扩展症状词库;对于未存在于疾病症状数据库中的疾病名称,采用新建分类并利用互联网爬虫搜索的方式创建其对应的症状词库,存入疾病症状数据库;
[0008]疾病症状筛查模型:通过SinHash算法建立疾病症状筛查模型,用于对待识别症状进行对应疾病的筛查;
[0009]疾病症状筛查单元:通过疾病症状筛查模型对待识别症状进行对应疾病的筛查,并根据筛查结果推荐被检者可能患有的疾病和健康问题以及个性化健康管理方案。
[0010]本专利技术通过上述系统,实现通过对被检者疾病症状进行对应疾病的筛查,并向被检者推荐可能患有的疾病和健康问题以及个性化健康管理方案。
[0011]在以上技术方案的基础上,优选的,疾病症状收集单元具体包括:
[0012]收集子单元:收集各种疾病名称,以及对应的症状描述性文本;
[0013]处理子单元:从所述描述性文本中提取关键词,并对关键词进行词性标注和术语提取,将从所述症状描述性文本中提取的关键词存入疾病名称的症状词库,并建立疾病名称与症状词库的映射关系,存入疾病症状数据库。
[0014]本专利技术通过上述单元,实现对疾病名称和对应症状的收集,为疾病筛查提供足够多的对比数据,并建立疾病名称和症状词库的映射关系,便于后期实现对被检者症状的筛选。
[0015]在以上技术方案的基础上,优选的,处理子单元中,从所述描述性文本中提取关键
词具体包括:
[0016]对所述多个描述性文本进行自动分词,计算每一个分词在描述性文本中的词频和权重,根据每一个分词的词频和权重,对所有分词进行排序,将排序高于预设第一阈值的多个分词作为该描述性文本的关键词,每个描述性文本的关键词作为一个关键词集合,一个疾病名称的症状词库中存在多个关键词集合。
[0017]本专利技术通过提取描述性文本关键词的方式建立症状词库,减少了描述性文本中不相关信息的干扰,提高疾病筛选效率。
[0018]在以上技术方案的基础上,优选的,计算每一个分词在描述性文本中的词频和权重,根据每一个分词的词频和权重,对所有分词进行排序具体包括:
[0019]计算每个分词在描述性文本中的词频TF,所述词频TF=某个分词在文章中出现的总次数/文章总分词数;
[0020]计算每个分词的权重IDF,所述权重IDF=log(该疾病名称的症状描述性文本总数/(包含该分词的文档数+1));
[0021]将每个分词的词频TF和权重IDF相乘,得到多个分词的TF

IDF值,即TF

IDF=TF*IDF,根据TF

IDF值由高到低的规则,将多个分词按顺序排列,选取排序高于预设第一阈值的多个分词作为该描述性文本的关键词。
[0022]本专利技术通过对描述性文本中每个分词的词频和权重进行计算,得到最后排序靠前的多个分词作为该描述性文本的关键词,提取了症状描述性文本中的重要部分,突出特征,提高了后续疾病筛查效率。
[0023]在以上技术方案的基础上,优选的,疾病症状扩展单元具体包括:
[0024]被动扩展子单元:对于已存在于疾病症状数据库中的疾病名称,系统管理员拥有可在其对应的症状词库中添加关键词的权限,通过系统管理人员在症状词库中添加关键词的方式扩展症状词库;
[0025]主动扩展子单元:对于未存在于疾病症状数据库中的疾病名称,在数据库中新建该疾病名称以及对应的症状词库,所述症状词库采用互联网爬虫搜索对应的症状描述性文本,并从中提取关键词,创建其对应的症状词库,存入疾病症状数据库。
[0026]本专利技术通过主动扩展和被动扩展两种方法,实现症状词库的动态扩展,保证了症状词库的全面性。
[0027]在以上技术方案的基础上,优选的,疾病症状筛查单元具体包括:
[0028]用户输入子单元:用于为被检者提供症状的输入界面,获取被检者在输入界面输入的症状,并进行分词处理,获取被检者症状的多个关键词,作为待识别症状;
[0029]症状筛查子单元:用于获取待识别症状,并将待识别症状输入到疾病症状筛查模型,获取筛查结果,并根据筛查结果推荐被检者可能患有的疾病和健康问题以及个性化健康管理方案。
[0030]本专利技术通过获取用户输入的症状并对其进行分词处理获得关键词,以关键词为查找内容进行疾病筛查,提高了基于疾病症状的疾病筛查效率。
[0031]在以上技术方案的基础上,优选的,疾病症状筛查模型具体包括:
[0032]将待识别症状中的每个关键词作为待识别症状的最小单元,通过SimHash算法计算疾病症状数据库中每一症状词库的指纹,生成一SimHash表;
[0033]选取一个待识别症状,计算该待识别症状所属的聚类簇,并将其记录到该SimHash表中,根据该待识别症状的指纹查找SimHash表,得到与该待识别症状相似的症状词库集合S0;
[0034]采用公式
[0035][0036]计算所述症状词库集合S0中的每一症状词库与所述待识别症状的相似度值,其中sim(A,B)为相似度值,|A∩B|表示待识别症状A和症状词库B中相同关键词的个数,|A|表示待识别症状A中关键词的总个数,|B|表示症状词库B中关键词的总个数,将与所述待识别症状的相似度值大于预设相似度的症状词库作为对应词库集合S1,并将所述对应词库集合S1中所有症状词库对应的疾病名称作为筛查结果。
[0037]本专利技术通过SimHash构建疾病筛查模型,以关键词为筛查机制的关键,大大提高了疾病的筛查速度。
[0038]在以上技术方案的基础上,优选的,根据该待识别症状的指纹查找SimHash表,得到与该待识别症状相似的症状词库集合S0具体包括:
[0039]利用SimHash计算当前待识别症状指纹与疾病症本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于症状特征的疾病分类的系统,其特征在于包括:疾病症状收集单元:用于收集各种疾病名称,以及多个对应的症状描述性文本,将所述疾病名称对应的所有症状描述性文本以疾病名称的症状词库方式存入疾病症状数据库;疾病症状扩展单元:对于已存在与疾病症状数据库中的疾病名称,在其对应的症状词库中添加关键词以扩展症状词库;对于未存在于疾病症状数据库中的疾病名称,采用新建分类并利用互联网爬虫搜索的方式创建其对应的症状词库,存入疾病症状数据库;疾病症状筛查模型:通过SinHash算法建立疾病症状筛查模型,用于对待识别症状进行对应疾病的筛查;疾病症状筛查单元:通过疾病症状筛查模型对待识别症状进行对应疾病的筛查,并根据筛查结果推荐被检者可能患有的疾病和健康问题以及个性化健康管理方案。2.如权利要求1所述的一种基于症状特征的疾病分类的系统,其特征在于,所述疾病症状收集单元具体包括:收集子单元:收集各种疾病名称,以及对应的症状描述性文本;处理子单元:从所述描述性文本中提取关键词,并对关键词进行词性标注和术语提取,将从所述症状描述性文本中提取的关键词存入疾病名称的症状词库,并建立疾病名称与症状词库的映射关系,存入疾病症状数据库。3.如权利要求2所述的一种基于症状特征的疾病分类的系统,其特征在于,所述处理子单元中,从所述描述性文本中提取关键词具体包括:对所述多个描述性文本进行自动分词,计算每一个分词在描述性文本中的词频和权重,根据每一个分词的词频和权重,对所有分词进行排序,将排序高于预设第一阈值的多个分词作为该描述性文本的关键词,每个描述性文本的关键词作为一个关键词集合,一个疾病名称的症状词库中存在多个关键词集合。4.如权利要求3所述的一种基于症状特征的疾病分类的系统,其特征在于,所述计算每一个分词在描述性文本中的词频和权重,根据每一个分词的词频和权重,对所有分词进行排序具体包括:计算每个分词在描述性文本中的词频TF,所述词频TF=某个分词在文章中出现的总次数/文章总分词数;计算每个分词的权重IDF,所述权重IDF=log(该疾病名称的症状描述性文本总数/(包含该分词的文档数+1));将每个分词的词频TF和权重IDF相乘,得到多个分词的TF

IDF值,即TF

IDF=TF*IDF,根据TF

IDF值由高到低的规则,将多个分词按顺序排列,选取排序高于预设第一阈值的多个分词作为该描述性文本的关键词。5.如权利要求1所述的一种基于症状特征的疾病分类的系统,其特征在于,所述疾病症状扩展单元中,具体包括:被动扩展子单元:对于已存在于疾病症状数据库中的疾病名称,系统管理员拥有可在其对应的症状词库中添加关键词的权限,通过系统管理人员在症状词库中添加关键词的方...

【专利技术属性】
技术研发人员:杜登斌杜小军杜乐
申请(专利权)人:吾征智能技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1