一种使用语义识别进行自动化疾病编码转换的方法技术

技术编号:15639246 阅读:116 留言:0更新日期:2017-06-15 22:19
本发明专利技术提出了一种使用语义识别进行自动化疾病编码转换的方法,包括:采集原始编码和诊断描述的对应关系的样本数据集;对诊断文字历史库中的数据按照医学规则进行预处理并进行分词操作;对诊断文字训练集中的数据建立同义词词库,并按照医学规则进行处理和分词操作;计算诊断文字历史库的中每个词对应的文档IDF权重值;将诊断文字训练集中每条诊断文字记录进行分词操作,生成由文字转换而成的训练集TF‑IDF矩阵;将待转换诊断文字记录分词操作,转换成词向量后与训练集TF‑IDF矩阵比对,通过余弦相似度公式找到训练集中计算结果最相近所对应的疾病编码。本发明专利技术根据医生对病人写的诊断文字描述,自动对文字描述所代表的编码进行转换。

【技术实现步骤摘要】
一种使用语义识别进行自动化疾病编码转换的方法
本专利技术涉及医学、计算机应用
,特别涉及一种使用语义识别进行自动化疾病编码转换的方法。
技术介绍
国际疾病分类(internationalClassificationofdiseases,ICD),是依据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示的系统。是记录诊断信息的载体,是开展医疗数据分析、疾病诊断分组以及绩效评价、医保控费的基础。在医疗机构实践中,各地基于疾病特点对编码进行了不同细化(ICD-10临床版),且不同医院对相同疾病诊断的描述不同。例如,GB-ICD-10中的“睑痉挛”与BJ-ICD-10中的“眼睑痉挛”诊断意义相同,前者编码为“G24.500”,而后者编码为“G24.501”。由此出现了多个版本不统一问题,严重影响着医疗数据的挖掘应用。现有技术中解决此类编码匹配问题方案,主要依靠文字完全匹配或者人工识别。前种方法遇到文字微小偏差即无法识别,而后种方法工作量大,对人员能力素质要求高,难以确保转换准确。
技术实现思路
本专利技术的目的旨在至少解决所述技术缺陷之一。为此,本专利技术的目的在于提出一种使用语义识别进行自动化疾病编码转换的方法。为了实现上述目的,本专利技术的实施例提供一种使用语义识别进行自动化疾病编码转换的方法,包括:步骤S1,采集原始编码和诊断描述的对应关系的样本数据集,分别建立编码历史库和诊断文字历史库;采集所有标准编码和诊断描述形成训练集,分别建立编码训练集和诊断文字训练集;将需要进行转换的诊断描述形成测试集,分别建立编码测试集和诊断文字测试集;步骤S2,对所述诊断文字历史库中的数据按照医学规则进行预处理,并对处理后的数据按照汉语规则进行分词操作;步骤S3,对所述诊断文字训练集中的数据建立同义词词库,并按照医学规则进行处理,并对处理后的数据按照汉语规则进行分词操作;步骤S4,分词操作后,将诊断文字历史库、诊断文字训练集中所涉及到不重复词汇制作为一个词包,并计算诊断文字历史库的词包中每个词对应的IDF权重值;步骤S5,将诊断文字训练集中每条诊断文字记录中所有词,进行分词操作,并计算每个诊断文字记录对应的词向量,再将诊断文字记录对应的词向量整合在一起并作为由文字转换而成得训练集TF-IDF矩阵;步骤S6,读入要转换的文字进行分词,取出诊断文字历史库的词包中出现的次数,并提取对应词的IDF权重值,转换为TF-IDF矩阵,将所有含有待转换编码文字的编码对应的TF-IDF矩阵筛选出来,生出初步筛选后的训练集TF-IDF矩阵,提取所述编码测试集,提取前N位值,并从所述初步筛选后的训练集TF-IDF矩阵中进一步筛选所述编码训练集前N位与所述编码测试集前N位相同的矩阵,作为筛选后的训练集TF-IDF矩阵;步骤S7,将诊断文字测试集记录分词后匹配诊断以形成词向量,与所有筛选后的记录按照下面公式计算相似度simij,并返回相似度最大值对应的疾病编码,其中,表示第i个预测集病例描述转化后的词向量,表示第j个训练集病例描述转化后的词向量;步骤S8,将最终编码结果发送给医学专家端进审核,根据医学专家反馈,以优化转换效果。进一步,在所述步骤S2和S3中,对诊断文字历史库和诊断文字训练集中的数据按照医学规则进行处理之前,还包括如下步骤:对数据进行去掉停用词处理。进一步,在所述步骤S4中,所述每个词对应的文档IDF权重值IDF第i个词为:其中,i为分词编号。进一步,在所述步骤S5中,所述计算第j个病例描述每i个词的权重值TF-IDF,对每一个编码对应词计算下去,并形成TF-IDF矩阵,其中,i为分词编号,j为病例编号。进一步,在所述步骤S6中,N取5,其中,前N位值包括小数点在内。根据本专利技术实施例的使用语义识别进行自动化疾病编码转换的方法,根据医生对病人写的主要诊断文字描述,自动对文字描述所代表的编码进行转换。具体地是通过获取一段时期内疾病分类编码和对应文字的样本数据集,然后将要转换目标编码及其文字,使用机器学习的方法,训练出使用诊断文字进行转换的转换器。当需要对新来的文字诊断进行编码转换时,使用这一转换器,即可输出预测的标准的疾病编码。本专利技术在ICD编码识别转换中创新应用了自然语言识别(NLP)技术,利用TF-IDF、余弦相似性等算法,实现了不同ICD(国际疾病分类)编码版本间自动转换,大大提升了编码转换的效率和准确性,为医疗数据应用(如医学研究、疾病控费管理)奠定了基础。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术实施例的使用语义识别进行自动化疾病编码转换的方法的流程图;图2为根据本专利技术实施例的使用语义识别进行自动化疾病编码转换的方法的示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。本专利技术提出了一种使用语义识别进行自动化疾病编码转换的系统,可以根据医生主诊断文字说明进行机器语义识别转换。如图1和图2所示,本专利技术实施例的使用语义识别进行自动化疾病编码转换的方法,包括如下步骤:步骤S1,采集原始编码和诊断描述的对应关系的样本数据集,分别建立编码历史库和诊断文字历史库。具体地,采集某地区近三年所有原始编码和诊断描述的对应关系的样本数据集,将原始编码部分记为历史库编码,原始诊断描述记为历史库诊断文字。采集所有标准编码和诊断描述形成训练集,分别建立编码训练集和诊断文字训练集。具体地,采集所有标准编码和诊断描述形成训练集,将训练集中编码部分记为训练集编码,训练集诊断描述记为训练集诊断文字。将需要进行转换的诊断描述形成测试集,分别建立编码测试集和诊断文字测试集。具体地,将需要进行转换的诊断描述形成测试集,测试集中编码部分记为测试集编码,训练集诊断描述记为测试集诊断文字;步骤S2,对诊断文字历史库中的数据按照医学规则进行预处理,并对处理后的数据按照汉语规则进行分词操作;具体地,将历史库诊断文字进行去掉停用词,然后,按照医学规则预处理数据,将处理好的历史库诊断文字数据按照汉语规则进行分词操作。步骤S3,对诊断文字训练集中的数据建立同义词词库,并按照医学规则进行处理,并对处理后的数据按照汉语规则进行分词操作。具体地,将诊断文字训练集进行增加同义词词表,并重复上述对历史库诊断文字的同样处理操作,对数据进行去掉停用词处理,按照医学规则进行处理,并对处理后的数据按照汉语规则进行分词操作。步骤S4,分词操作后,将诊断文字历史库、诊断文字训练集中所涉及到不重复词汇制作为一个词包,并计算诊断文字历史库的词包中每个词对应的文档IDF权重值。在本步骤中,每个词对应的文档IDF权重值IDF第i个词为:其中,i为分词编号。步骤S5,将诊断文字训练集中每条诊断文字记录中所有词,进行分词操作,并计算每个诊断文字记录对应的词向量,再将诊断文字记录对应的词向量整合在一起并作为由文字转换成的训练集TF-IDF矩阵。具体地本文档来自技高网...
一种使用语义识别进行自动化疾病编码转换的方法

【技术保护点】
一种使用语义识别进行自动化疾病编码转换的方法,其特征在于,包括如下步骤:步骤S1,采集原始编码和诊断描述的对应关系的样本数据集,分别建立编码历史库和诊断文字历史库;采集所有标准编码和诊断描述形成训练集,分别建立编码训练集和诊断文字训练集;将需要进行转换的诊断描述形成测试集,分别建立编码测试集和诊断文字测试集;步骤S2,对所述诊断文字历史库中的数据按照医学规则进行预处理,并对处理后的数据按照汉语规则进行分词操作;步骤S3,对所述诊断文字训练集中的数据建立同义词词库,并按照医学规则进行处理,并对处理后的数据按照汉语规则进行分词操作;步骤S4,分词操作后,将诊断文字历史库、诊断文字训练集中所涉及到不重复词汇制作为一个词包,并计算诊断文字历史库的词包中每个词对应的文档IDF权重值;步骤S5,将诊断文字训练集中每条诊断文字记录中所有词,进行分词操作,并计算每个诊断文字记录对应的词向量,再将诊断文字记录对应的词向量整合在一起并作为由文字转换而成的训练集TF‑IDF矩阵;步骤S6,读入要转换的文字进行分词,取出诊断文字历史库的词包中出现的次数,并提取对应词的IDF权重值,转换为TF‑IDF矩阵,将所有含有待转换编码文字的编码对应的TF‑IDF矩阵筛选出来,生出初步筛选后的训练集TF‑IDF矩阵,提取所述编码测试集,提取前N位值,并从所述初步筛选后的训练集TF‑IDF矩阵中进一步筛选所述编码训练集前N位与所述编码测试集前N位相同的矩阵,作为筛选后的训练集TF‑IDF矩阵;步骤S7,将诊断文字测试集记录分词后匹配诊断以形成词向量,与所有筛选后的记录按照下面公式计算相似度sim...

【技术特征摘要】
1.一种使用语义识别进行自动化疾病编码转换的方法,其特征在于,包括如下步骤:步骤S1,采集原始编码和诊断描述的对应关系的样本数据集,分别建立编码历史库和诊断文字历史库;采集所有标准编码和诊断描述形成训练集,分别建立编码训练集和诊断文字训练集;将需要进行转换的诊断描述形成测试集,分别建立编码测试集和诊断文字测试集;步骤S2,对所述诊断文字历史库中的数据按照医学规则进行预处理,并对处理后的数据按照汉语规则进行分词操作;步骤S3,对所述诊断文字训练集中的数据建立同义词词库,并按照医学规则进行处理,并对处理后的数据按照汉语规则进行分词操作;步骤S4,分词操作后,将诊断文字历史库、诊断文字训练集中所涉及到不重复词汇制作为一个词包,并计算诊断文字历史库的词包中每个词对应的文档IDF权重值;步骤S5,将诊断文字训练集中每条诊断文字记录中所有词,进行分词操作,并计算每个诊断文字记录对应的词向量,再将诊断文字记录对应的词向量整合在一起并作为由文字转换而成的训练集TF-IDF矩阵;步骤S6,读入要转换的文字进行分词,取出诊断文字历史库的词包中出现的次数,并提取对应词的IDF权重值,转换为TF-IDF矩阵,将所有含有待转换编码文字的编码对应的TF-IDF矩阵筛选出来,生出初步筛选后的训练集TF-IDF矩阵,提取所述编码测试集,提取前N位值,并从所述初步筛选后的训练集TF-IDF矩阵中进一步筛选所述编码训练集前N位与所述编码测试集前N位相同的矩阵,作为筛...

【专利技术属性】
技术研发人员:谢国亮程岚孙志强杜玉恒苏倩
申请(专利权)人:天津艾登科技有限公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1