【技术实现步骤摘要】
基于比特串哈希的医疗数据相似度检测系统与方法
本专利技术涉及文本相似度检测领域,特别是涉及一种基于比特串哈希的医疗数据相似度检测系统与方法。
技术介绍
随着在线医疗的飞速发展,医疗领域文本数据的积累与日俱增,其中蕴含的潜在价值将非常有效的降低医患间的交流成本,帮助医疗社区精细化运作、提供更具有针对性的服务。医疗文本具有类别区分不明显、非结构化特征明显、低频词具有高判别权重,普遍存在信息缺失和信息不一致等特点。如何精确地计算出医疗文本间的相似度,快速而又准确地检索出相关医疗信息是当前亟待解决的问题。为解决上述问题,本文提出一种基于哈希化处理的医疗文本相似度检测系统及方法。文本相似度计算方法在医疗文本领域的应用主要体现在医疗相关问题检索领域中,结合医疗领域知识,在成千上万个文本中找出与指定文本相似的文本,先判断文本所属类别,再在同类文本中寻找相似文本进行更精准的匹配可更加精准的预测相似度高的同类问题,提升不同病症咨询文本之间的检索匹配精度。目前文本相似度检索方法主要可以分为两类,一类是基于关键词匹配的传统方法,该 ...
【技术保护点】
1.基于比特串哈希的医疗数据相似度检测系统,其特征在于,包括:数据存储模块、数据预处理模块、特征抽取模块、哈希化处理模块、相似度计算模块和相似度可视化模块;/n所述数据存储模块用于存储医疗文本数据,所述数据预处理模块是基于医疗领域词库将文本进行降维处理并对文本数据中隐私信息进行去除处理,所述特征抽取模块是基于平滑处理抽取特征将文档、文档特征及其权重构成文档-特征权重矩阵,所述哈希化处理模块用于通过定义初始权值更新参数并不断迭代动态调整阈值,依据最终阈值将文本哈希化,所述相似度计算模块用于将文档映射为数字指纹并计算各个文档间的海明距离并依据相似度阈值划分文档相似度组,所述相似 ...
【技术特征摘要】
1.基于比特串哈希的医疗数据相似度检测系统,其特征在于,包括:数据存储模块、数据预处理模块、特征抽取模块、哈希化处理模块、相似度计算模块和相似度可视化模块;
所述数据存储模块用于存储医疗文本数据,所述数据预处理模块是基于医疗领域词库将文本进行降维处理并对文本数据中隐私信息进行去除处理,所述特征抽取模块是基于平滑处理抽取特征将文档、文档特征及其权重构成文档-特征权重矩阵,所述哈希化处理模块用于通过定义初始权值更新参数并不断迭代动态调整阈值,依据最终阈值将文本哈希化,所述相似度计算模块用于将文档映射为数字指纹并计算各个文档间的海明距离并依据相似度阈值划分文档相似度组,所述相似度可视化模块用于展示与目标文档相似度高的文档子集及各文档组内相似文本排列;
所述数据存储模块与数据预处理模块通讯连接,所述特征抽取模块分别与数据预处理模块、哈希化处理模块通讯连接,所述相似度计算模块分别与哈希化处理模块、相似度可视化模块通讯连接,所述相似度可视化模块与相似度计算模块通讯连接。
2.根据权利要求1所述的基于比特串哈希的医疗数据相似度检测系统,其特征在于,所述数据存储模块存储的数据包括用户ID及用户自述性医疗文本。
3.根据权利要求1所述的基于比特串哈希的医疗数据相似度检测系统,其特征在于,所述数据预处理模块通过隐私保护装置将与检索内容无关病人隐私数据进行剔除,利用基于疾病症状垂直领域词库对用户语段进行分词处理,得到分词集合,并把停用词剔除;
所述停用词指无实际意义且对模型训练无用的词汇,包括语气助词、连接词、介词、副词。
4.根据权利要求1所述的基于比特串哈希的医疗数据相似度检测系统,其特征在于,所述特征抽取模块构建文本-特征权重矩阵方法为:利用特征计算装置统计数据,集中每个特征词的STF-IDF值,得到当前数据集词频文档,按照STF-IDF值对每个词进行降序排列,选取前n个特征词组成特征文本集的特征词集。
5.根据权利要求1所述的基于比特串哈希的医疗数据相似度检测系统,其特征在于,所述文档相似度计算模块划分文档相似度组方法为:从预先设置的数据库中,查找与所述文本数据信息相互对应的文本语意信息并通过哈希函数形成特征数据向量信息,根据基准文本数据信息所对应的相似数据信息以及对文本数据信息所对应的相似数,通过相似度函数判断基准文本数据信息和比对文本数据信息之间的相似度,进而划分文档相似度组。
6.基于比特串哈希的医疗数据相似度检测方法,其特征在于,包括以下步骤:
步骤1:针对在线医疗社区,将采集的医疗文本数据按照字段与属性设计合理的数据库进行存储,得到文本集合T=...
【专利技术属性】
技术研发人员:周铁华,王玲,李建,刘文强,
申请(专利权)人:东北电力大学,
类型:发明
国别省市:吉林;22
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。