一种使用语义识别进行自动化疾病编码转换的方法技术

技术编号：15639246 阅读：116 留言：0更新日期：2017-06-15 22:19

本发明专利技术提出了一种使用语义识别进行自动化疾病编码转换的方法，包括：采集原始编码和诊断描述的对应关系的样本数据集；对诊断文字历史库中的数据按照医学规则进行预处理并进行分词操作；对诊断文字训练集中的数据建立同义词词库，并按照医学规则进行处理和分词操作；计算诊断文字历史库的中每个词对应的文档IDF权重值；将诊断文字训练集中每条诊断文字记录进行分词操作，生成由文字转换而成的训练集TF‑IDF矩阵；将待转换诊断文字记录分词操作，转换成词向量后与训练集TF‑IDF矩阵比对，通过余弦相似度公式找到训练集中计算结果最相近所对应的疾病编码。本发明专利技术根据医生对病人写的诊断文字描述，自动对文字描述所代表的编码进行转换。

全部详细技术资料下载

【技术实现步骤摘要】
一种使用语义识别进行自动化疾病编码转换的方法
本专利技术涉及医学、计算机应用
，特别涉及一种使用语义识别进行自动化疾病编码转换的方法。
技术介绍
国际疾病分类(internationalClassificationofdiseases，ICD)，是依据疾病的某些特征，按照规则将疾病分门别类，并用编码的方法来表示的系统。是记录诊断信息的载体，是开展医疗数据分析、疾病诊断分组以及绩效评价、医保控费的基础。在医疗机构实践中，各地基于疾病特点对编码进行了不同细化(ICD-10临床版)，且不同医院对相同疾病诊断的描述不同。例如，GB-ICD-10中的“睑痉挛”与BJ-ICD-10中的“眼睑痉挛”诊断意义相同，前者编码为“G24.500”，而后者编码为“G24.501”。由此出现了多个版本不统一问题，严重影响着医疗数据的挖掘应用。现有技术中解决此类编码匹配问题方案，主要依靠文字完全匹配或者人工识别。前种方法遇到文字微小偏差即无法识别，而后种方法工作量大，对人员能力素质要求高，难以确保转换准确。
技术实现思路
本专利技术的目的旨在至少解决所述技术缺陷之一。为此，本专利技术的目的在于提出一种使用语义识别进行自动化疾病编码转换的方法。为了实现上述目的，本专利技术的实施例提供一种使用语义识别进行自动化疾病编码转换的方法，包括：步骤S1，采集原始编码和诊断描述的对应关系的样本数据集，分别建立编码历史库和诊断文字历史库；采集所有标准编码和诊断描述形成训练集，分别建立编码训练集和诊断文字训练集；将需要进行转换的诊断描述形成测试集，分别建立编码测试集和诊断文字测试集；步骤S2，对所...
一种使用语义识别进行自动化疾病编码转换的方法

【技术保护点】
一种使用语义识别进行自动化疾病编码转换的方法，其特征在于，包括如下步骤：步骤S1，采集原始编码和诊断描述的对应关系的样本数据集，分别建立编码历史库和诊断文字历史库；采集所有标准编码和诊断描述形成训练集，分别建立编码训练集和诊断文字训练集；将需要进行转换的诊断描述形成测试集，分别建立编码测试集和诊断文字测试集；步骤S2，对所述诊断文字历史库中的数据按照医学规则进行预处理，并对处理后的数据按照汉语规则进行分词操作；步骤S3，对所述诊断文字训练集中的数据建立同义词词库，并按照医学规则进行处理，并对处理后的数据按照汉语规则进行分词操作；步骤S4，分词操作后，将诊断文字历史库、诊断文字训练集中所涉及到不重复词汇制作为一个词包，并计算诊断文字历史库的词包中每个词对应的文档IDF权重值；步骤S5，将诊断文字训练集中每条诊断文字记录中所有词，进行分词操作，并计算每个诊断文字记录对应的词向量，再将诊断文字记录对应的词向量整合在一起并作为由文字转换而成的训练集TF‑IDF矩阵；步骤S6，读入要转换的文字进行分词，取出诊断文字历史库的词包中出现的次数，并提取对应词的IDF权重值，转换为TF‑IDF矩阵，将所...

【技术特征摘要】
1.一种使用语义识别进行自动化疾病编码转换的方法，其特征在于，包括如下步骤：步骤S1，采集原始编码和诊断描述的对应关系的样本数据集，分别建立编码历史库和诊断文字历史库；采集所有标准编码和诊断描述形成训练集，分别建立编码训练集和诊断文字训练集；将需要进行转换的诊断描述形成测试集，分别建立编码测试集和诊断文字测试集；步骤S2，对所述诊断文字历史库中的数据按照医学规则进行预处理，并对处理后的数据按照汉语规则进行分词操作；步骤S3，对所述诊断文字训练集中的数据建立同义词词库，并按照医学规则进行处理，并对处理后的数据按照汉语规则进行分词操作；步骤S4，分词操作后，将诊断文字历史库、诊断文字训练集中所涉及到不重复词汇制作为一个词包，并计算诊断文字历史库的词包中每个词对应的文档IDF权重值；步骤S5，将诊断文字训练集中每条诊断文字记录中所有词，进行分词操作，并计算每个诊断文字记录对应的词向量，再将诊断文字记录对应的词向量整合在一起并作为由文字转换而成的训练集TF-IDF矩阵；步骤S6，读入要转换的文字进行分词，取出诊断文字历史库的词包中出现的次数，并提取对应词的IDF权重值，转换为TF-IDF矩阵，将所有含有待转换编码文字的编码对应的TF-IDF矩阵筛选出来，生出初步筛选后的训练集TF-IDF矩阵，提取所述编码测试集，提取前N位值，并从所述初步筛选后的训练集TF-IDF矩阵中进一步筛选所述编码训练集前N位与所述编码测试集前N位相同的矩阵，作为筛...

【专利技术属性】
技术研发人员：谢国亮，程岚，孙志强，杜玉恒，苏倩，
申请(专利权)人：天津艾登科技有限公司，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人