基于人工智能的疾病诊断数据处理方法及系统技术方案

技术编号:38320014 阅读:10 留言:0更新日期:2023-07-29 09:02
本发明专利技术公开了基于人工智能的疾病诊断数据处理方法及系统,方法包括:识别出当前待处理病历中的文字;利用关键词识别算法得到待处理关键词词组;计算待处理关键词词组与现有的关键词词组之间的相似度结果,判断相似度结果是否大于第一预设阈值;若是,将待处理关键词词组作为当前待处理病历的标签,并将当前待处理病历存入病历库中;若否,将待处理关键词词组进行拆分得到若干个第一关键词,将第一关键词与预设关键词词库进行匹配,若预设关键词词库中不存在与第一关键词相同的关键词,将第一关键词加入到预设关键词词库中,然后待处理关键词作为当前待处理病历的标签。应用本发明专利技术实施例,可以自动的为待处理病历进行标签化处理。理。理。

【技术实现步骤摘要】
基于人工智能的疾病诊断数据处理方法及系统


[0001]本专利技术涉及数据处理
,更具体涉及基于人工智能的疾病诊断数据处理方法及系统。

技术介绍

[0002]患者的疾病诊断信息,如病历都是人为编写或者手写的,其内容并没有严格的标准化格式,因此内容因人而异;尤其是一些历史病历可能是手写的,或者打印出来的,进一步加剧了病历文件中内容的差别。总而言之,也就是说病历是一个非标文件。
[0003]在基于病历信息进行数据统计分析,以及跨单位学术交流时可能需要筛选出相同类型的病历。在筛选时一般是根据不同的标签进行筛选,这就要求预先与各个病历进行标签化,但是病历文件大多都是非标文件,如何对病历文件进行标签化是亟待解决的技术问题。

技术实现思路

[0004]本专利技术所要解决的技术问题在于提供了基于人工智能的疾病诊断数据处理方法及系统,可以对病历文件进行标签化。
[0005]本专利技术是通过以下技术方案解决上述技术问题的:
[0006]本专利技术提供了基于人工智能的疾病诊断数据处理方法,所述方法包括:
[0007]识别出当前待处理病历中的文字;针对所述文字,利用关键词识别算法对当前待处理病历中的数据进行关键词提取,得到待处理关键词词组;
[0008]计算待处理关键词词组与现有的关键词词组之间的相似度结果,判断所述相似度结果是否大于第一预设阈值;
[0009]若是,将待处理关键词词组作为当前待处理病历的标签,并将当前待处理病历存入病历库中;
[0010]若否,将待处理关键词词组进行拆分得到若干个第一关键词,针对每一个第一关键词,将第一关键词与预设关键词词库进行匹配,若预设关键词词库中不存在与第一关键词相同的关键词,将第一关键词加入到预设关键词词库中,然后待处理关键词作为当前待处理病历的标签。
[0011]可选的,所述识别出当前待处理病历中的文字,包括:
[0012]获取当前待处理病历的格式信息,根据所述格式信息判断所述当前待处理病历属于图片格式还是文本格式;
[0013]若属于图片格式,利用OCR识别算法识别出当前待处理病历中包含的文字信息;
[0014]若属于文本格式,直接提取出当前待处理病历中的文字信息;
[0015]将所有文字信息作为当前待处理病历中的文字。
[0016]可选的,所述识别出当前待处理病历中的文字,包括:
[0017]获取当前待处理病历的格式信息,在当前待处理病历的格式信息属于预设格式
时,解析当前待处理病历对应的文档,得到解析结果,并判断解析结果中是否存在图片数据;
[0018]若是,将当前待处理病历中的图片数据抽取出来得到图片部分;将文字部分抽取出来得到文字部分;
[0019]针对图片部分,利用OCR识别算法识别出当前待处理病历中包含的文字信息;
[0020]将文字信息插入到文字部分中对应位置,得到当前待处理病历中的文字。
[0021]可选的,所述计算待处理关键词词组与现有的关键词词组之间的相似度结果,包括:
[0022]针对待处理关键词词组中的每一个第一关键词,计算所述待处理关键词词组与现有的关键词词组中各个关键词之间的分词相似度;根据所述分词相似度与对应的第一权重之积,计算出第一关键词到现有的关键词词组的分词距离;
[0023]根据各个分词距离与对应的第二权重之积,计算出待处理关键词词组与现有的关键词词组之间的相似度结果。
[0024]可选的,所述根据所述分词相似度与对应的第一权重之积,计算出第一关键词到现有的关键词词组的分词距离,包括:
[0025]利用公式,计算出第一关键词到现有的关键词词组的分词距离,
[0026]l
j
为第一关键词到现有的关键词词组的分词距离;n为现有的关键词词组中各个关键词的总数量;w
i
为现有的关键词词组中各个关键词分别对应的权重;i为现有的关键词词组中各个关键词的编号;l
i
为第一关键词到现有的关键词词组中每一个关键词的语义相似度。
[0027]可选的,所述根据各个分词距离与对应的第二权重之积,计算出待处理关键词词组与现有的关键词词组之间的相似度结果,包括:
[0028]根据各个分词距离的与对应的第二权重之积,计算出待处理关键词词组与现有的关键词词组之间的相似度结果,其中,
[0029]T为待处理关键词词组到现有的关键词词组之间的相似度结果;m为待处理关键词词组的数量;j为待处理关键词词组的序号;w
j
为现有的关键词词组对应的第二权重。
[0030]可选的,所述若预设关键词词库中不存在与第一关键词相同的关键词,将第一关键词加入到预设关键词词库中,然后待处理关键词作为当前待处理病历的标签,包括:
[0031]获取第一预设数量个其他待处理病历,获取其他待处理病历中包含的第二关键词,获取与第一关键词相同的第二关键词的词频;
[0032]在所述词频大于第二预设阈值时,将第一关键词加入到预设关键词词库中,然后待处理关键词作为当前待处理病历的标签。
[0033]可选的,所述第一预设数量的计算过程包括:
[0034]计算第一关键词相对于预设关键词词库中各个预设关键词的语义相似度;
[0035]将所述语义相似度按照从大到小的顺序排序,得到语义相似度序列;
[0036]筛选出计算语义相似度大于第三预设阈值的第二预设数量个顺序次序的目标语义相似度;
[0037]计算目标语义相似度的方差,根据所述方差,利用公式,k=s/δ,计算第一预设数量,其中,
[0038]k为第一预设数量;s为;δ为目标语义相似度的方差。
[0039]可选的,所述获取与第一关键词相同的第二关键词的词频,包括:
[0040]识别出与第一关键词相同的第二关键词的命中数量,并获取其他待处理病历中包含的第二关键词总数量的平均值;
[0041]将所述命中数量相对于所述平均值的比值作为与第一关键词相同的第二关键词的词频。
[0042]本专利技术还提供了基于人工智能的疾病诊断数据处理系统,所述系统包括:
[0043]识别模块,用于识别出当前待处理病历中的文字;针对所述文字,利用关键词识别算法对当前待处理病历中的数据进行关键词提取,得到待处理关键词词组;
[0044]计算模块,用于计算待处理关键词词组与现有的关键词词组之间的相似度结果,判断所述相似度结果是否大于第一预设阈值;
[0045]第一存储模块,用于在所述计算模块的输出结果为是的情况下,将待处理关键词词组作为当前待处理病历的标签,并将当前待处理病历存入病历库中;
[0046]第二存储模块,用于在所述计算模块的输出结果为否的情况下,将待处理关键词词组进行拆分得到若干个第一关键词,针对每一个第一关键词,将第一关键词与预设关键词词库进行匹配,若预设关键词词库中不存在与第一关键词相同的关键词,将第一关键词加入到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于人工智能的疾病诊断数据处理方法,其特征在于,所述方法包括:识别出当前待处理病历中的文字;针对所述文字,利用关键词识别算法对当前待处理病历中的数据进行关键词提取,得到待处理关键词词组;计算待处理关键词词组与现有的关键词词组之间的相似度结果,判断所述相似度结果是否大于第一预设阈值;若是,将待处理关键词词组作为当前待处理病历的标签,并将当前待处理病历存入病历库中;若否,将待处理关键词词组进行拆分得到若干个第一关键词,针对每一个第一关键词,将第一关键词与预设关键词词库进行匹配,若预设关键词词库中不存在与第一关键词相同的关键词,将第一关键词加入到预设关键词词库中,然后待处理关键词作为当前待处理病历的标签。2.根据权利要求1所述的基于人工智能的疾病诊断数据处理方法,其特征在于,所述识别出当前待处理病历中的文字,包括:获取当前待处理病历的格式信息,根据所述格式信息判断所述当前待处理病历属于图片格式还是文本格式;若属于图片格式,利用OCR识别算法识别出当前待处理病历中包含的文字信息;若属于文本格式,直接提取出当前待处理病历中的文字信息;将所有文字信息作为当前待处理病历中的文字。3.根据权利要求1所述的基于人工智能的疾病诊断数据处理方法,其特征在于,所述识别出当前待处理病历中的文字,包括:获取当前待处理病历的格式信息,在当前待处理病历的格式信息属于预设格式时,解析当前待处理病历对应的文档,得到解析结果,并判断解析结果中是否存在图片数据;若是,将当前待处理病历中的图片数据抽取出来得到图片部分;将文字部分抽取出来得到文字部分;针对图片部分,利用OCR识别算法识别出当前待处理病历中包含的文字信息;将文字信息插入到文字部分中对应位置,得到当前待处理病历中的文字。4.根据权利要求1所述的基于人工智能的疾病诊断数据处理方法,其特征在于,所述计算待处理关键词词组与现有的关键词词组之间的相似度结果,包括:针对待处理关键词词组中的每一个第一关键词,计算所述待处理关键词词组与现有的关键词词组中各个关键词之间的分词相似度;根据所述分词相似度与对应的第一权重之积,计算出第一关键词到现有的关键词词组的分词距离;根据各个分词距离与对应的第二权重之积,计算出待处理关键词词组与现有的关键词词组之间的相似度结果。5.根据权利要求4所述的基于人工智能的疾病诊断数据处理方法,其特征在于,所述根据所述分词相似度与对应的第一权重之积,计算出第一关键词到现有的关键词词组的分词距离,包括:利用公式,计算出第一关键词到现有的关键词词组的分词距离,l
j
为第一关键词到现有的关键词词组的分词距离;n为现有的关键词词组中各个关键词
的总数量;w
i
为现有的关键词词组中各个关键词分别对应的权重;i为现有的关键词词组中各个关键词的编号;l
i
为第一关键词到现有的关键...

【专利技术属性】
技术研发人员:曹群程亚慧应文晶彭拓柯锦渊
申请(专利权)人:杭州心景科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1