【技术实现步骤摘要】
基于人工智能的疾病诊断数据处理方法及系统
[0001]本专利技术涉及数据处理
,更具体涉及基于人工智能的疾病诊断数据处理方法及系统。
技术介绍
[0002]患者的疾病诊断信息,如病历都是人为编写或者手写的,其内容并没有严格的标准化格式,因此内容因人而异;尤其是一些历史病历可能是手写的,或者打印出来的,进一步加剧了病历文件中内容的差别。总而言之,也就是说病历是一个非标文件。
[0003]在基于病历信息进行数据统计分析,以及跨单位学术交流时可能需要筛选出相同类型的病历。在筛选时一般是根据不同的标签进行筛选,这就要求预先与各个病历进行标签化,但是病历文件大多都是非标文件,如何对病历文件进行标签化是亟待解决的技术问题。
技术实现思路
[0004]本专利技术所要解决的技术问题在于提供了基于人工智能的疾病诊断数据处理方法及系统,可以对病历文件进行标签化。
[0005]本专利技术是通过以下技术方案解决上述技术问题的:
[0006]本专利技术提供了基于人工智能的疾病诊断数据处理方法,所述方法包括:
[0007]识别出当前待处理病历中的文字;针对所述文字,利用关键词识别算法对当前待处理病历中的数据进行关键词提取,得到待处理关键词词组;
[0008]计算待处理关键词词组与现有的关键词词组之间的相似度结果,判断所述相似度结果是否大于第一预设阈值;
[0009]若是,将待处理关键词词组作为当前待处理病历的标签,并将当前待处理病历存入病历库中;
[0010]若否,将 ...
【技术保护点】
【技术特征摘要】
1.基于人工智能的疾病诊断数据处理方法,其特征在于,所述方法包括:识别出当前待处理病历中的文字;针对所述文字,利用关键词识别算法对当前待处理病历中的数据进行关键词提取,得到待处理关键词词组;计算待处理关键词词组与现有的关键词词组之间的相似度结果,判断所述相似度结果是否大于第一预设阈值;若是,将待处理关键词词组作为当前待处理病历的标签,并将当前待处理病历存入病历库中;若否,将待处理关键词词组进行拆分得到若干个第一关键词,针对每一个第一关键词,将第一关键词与预设关键词词库进行匹配,若预设关键词词库中不存在与第一关键词相同的关键词,将第一关键词加入到预设关键词词库中,然后待处理关键词作为当前待处理病历的标签。2.根据权利要求1所述的基于人工智能的疾病诊断数据处理方法,其特征在于,所述识别出当前待处理病历中的文字,包括:获取当前待处理病历的格式信息,根据所述格式信息判断所述当前待处理病历属于图片格式还是文本格式;若属于图片格式,利用OCR识别算法识别出当前待处理病历中包含的文字信息;若属于文本格式,直接提取出当前待处理病历中的文字信息;将所有文字信息作为当前待处理病历中的文字。3.根据权利要求1所述的基于人工智能的疾病诊断数据处理方法,其特征在于,所述识别出当前待处理病历中的文字,包括:获取当前待处理病历的格式信息,在当前待处理病历的格式信息属于预设格式时,解析当前待处理病历对应的文档,得到解析结果,并判断解析结果中是否存在图片数据;若是,将当前待处理病历中的图片数据抽取出来得到图片部分;将文字部分抽取出来得到文字部分;针对图片部分,利用OCR识别算法识别出当前待处理病历中包含的文字信息;将文字信息插入到文字部分中对应位置,得到当前待处理病历中的文字。4.根据权利要求1所述的基于人工智能的疾病诊断数据处理方法,其特征在于,所述计算待处理关键词词组与现有的关键词词组之间的相似度结果,包括:针对待处理关键词词组中的每一个第一关键词,计算所述待处理关键词词组与现有的关键词词组中各个关键词之间的分词相似度;根据所述分词相似度与对应的第一权重之积,计算出第一关键词到现有的关键词词组的分词距离;根据各个分词距离与对应的第二权重之积,计算出待处理关键词词组与现有的关键词词组之间的相似度结果。5.根据权利要求4所述的基于人工智能的疾病诊断数据处理方法,其特征在于,所述根据所述分词相似度与对应的第一权重之积,计算出第一关键词到现有的关键词词组的分词距离,包括:利用公式,计算出第一关键词到现有的关键词词组的分词距离,l
j
为第一关键词到现有的关键词词组的分词距离;n为现有的关键词词组中各个关键词
的总数量;w
i
为现有的关键词词组中各个关键词分别对应的权重;i为现有的关键词词组中各个关键词的编号;l
i
为第一关键词到现有的关键...
【专利技术属性】
技术研发人员:曹群,程亚慧,应文晶,彭拓,柯锦渊,
申请(专利权)人:杭州心景科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。