本发明专利技术涉及自然语言处理、信息检索和医疗数据挖掘等技术领域。尤其涉及一种应用于互联网问诊平台中的基于词句分布表示的相似病例推荐系统及相应的方法。本发明专利技术的系统包含数据模块、推荐模块、评估模块和在线模块;所述数据模块包含数据采集子模块、数据存储子模块、数据预处理子模块、分词子模块和词向量训练子模块;所述推荐模块包含决策子模块、语义相似度算法子模块、推荐排序子模块;所述在线模块包含推荐子模块和反馈子模块;数据模块将有效数据传送给推荐模块,推荐模块接收来自数据模块的数据和评估模块的指标,推荐相关病例,将推荐结果传递至在线模块;在线模块将推荐结果传递给用户,同时用户将推荐结果的反馈返回在线模块。
【技术实现步骤摘要】
本专利技术涉及自然语言处理、信息检索和医疗数据挖掘等
尤其涉及一种应用于互联网问诊平台中的基于词句分布表示的相似病例推荐系统及相应的方法,该系统能够利用互联网问诊平台资源优势,通过算法的改进和优化解决了词汇鸿沟问题,从语义层面实现互联网问诊平台相似案例的精准推荐。
技术介绍
随着互联网的高速发展,互联网的接受程度越来越高。近年来,由于医疗资源紧张,看病贵、看病难等问题的不断出现,越来越多的人开始在网上查阅病情。互联网问诊平台是互联网在医疗领域的新应用。在线的问诊平台中,患者在平台的一端描述自己的病情症状,平台另一端的医生可以根据用户描述的症状及时地做出诊断,并且提供建议给患者,患者将医生回答的满意度反馈给系统。借助互联网问诊平台,医生和患者可以突破时间和空间限制,突破资源分配不均等限制。然而,许多患者面对的疾病和症状可能在此之前已有过相似的患者描述过并且已经得到了比较权威而且有效的解答。因此,将这些已经被医生回答且质量较高的相似病例自动推荐给患者作为参考有着重要的意义。一方面可以减少患者在线等待医生回复的时间,另一方面也可以使医生不必重复回答同一种疾病,同时也节省了医生的时间,节约了社会成本。相似病例推荐,即根据在线用户中提交的病情描述,在庞大的历史数据库中匹配语义最相近的案例,将语义最相近的案例作为参考案例推荐给患者。所以,其核心任务是计算查询问题与历史问题之间的语义相似度。但是,自然语言提问方式的多样性和用户用词的差异性,给相似问题检索带来了巨大的挑战。两个语义相似的句子在语言表达形式和用词上可能完全不同,后者在自然语言理解领域,称之为词汇鸿沟(lexicalgap)问题。经过对现有技术文献的检索发现,目前有许多的国内外学者对计算语义相似度有了一定的研究,如向量空间模型、BM25模型等,但是这些模型无法很好地解决“语义鸿沟”问题。相比而言,Jeon等人提出的基于翻译的方法(translationbasedmethod)在社区问答中得到了广泛的研究,并且实验结果表明,该方法可以有效解决词汇鸿沟问题。然而,实施基于翻译的方法所需的单语平行语料库不易获取,且大部分研究中假设问答对是平行语料库的做法并不实际。Wordembedding相关的工作在语义相关性方面有显著的成效,如何融合现有技术,实现真正意义上的语义匹配,搭建智能推荐系统,是优化相似病例推荐的关键。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种适用于互联网问诊平台的相似病例精准推荐系统及相应的方法,该系统可以根据患者对疾病症状的描述在历史病例数据库中找到相似病例并推荐给患者作为参考。本模型方法也可以推广到其他的应用场景,如知识问答平台、一般社区问答平台等。为了实现上述目的,根据本专利技术的一方面,提出了一种基于词句分布表示的相似病例推荐系统。本专利技术的具体技术方案为:一种基于词句分布表示的相似病例推荐的系统,包含数据模块001、推荐模块002、评估模块003和在线模块004;所述数据模块001包含数据采集子模块、数据存储子模块、数据预处理子模块、分词子模块和词向量训练子模块;所述推荐模块002包含决策子模块、语义相似度算法子模块、推荐排序子模块;所述在线模块004包含推荐子模块和反馈子模块;数据模块001将有效数据传送给推荐模块002,推荐模块002接收来自数据模块001的数据和评估模块003的指标,推荐相关病例,将推荐结果传递至在线模块004;在线模块004将推荐结果传递给用户,同时用户将推荐结果的反馈返回在线模块004。优化地,所述数据模块001通过数据采集子模块采集在线数据、通过数据存储子模块存储历史数据,通过数据预处理子模块和分词子模块将数据进行提取和去噪声等处理,并将数据转化成符合要求的格式,词向量训练子模块提供相似度计算所要求的词向量等数据;其中数据采集单元与在线模块004相连,实时采集在线提问和反馈等相关数据;分词功能子模块与词向量训练子模块和推荐模块002中的语义相似度算法子模块相连,按需求对存储数据进行分词;词向量训练模块与推荐模块中的语义相似度算法子模块相连,可将词句映射至多维连续空间,将词句分布表示成向量形式,并定期更新。词向量训练子模块利用历史病例数据库中的数据训练词句的分布表示,将词句映射分布至多维连续空间,以向量形式表示,通过自学习无监督的获取语义位置,并定期的训练和更新推荐模块中使用的词向量。优化地,所述推荐模块002可挖掘历史病例数据,为在线提问推荐可参考性病例;其中,决策单元与评估模块003相连,根据其提供的评估指标,确定语义相似度算法的选择;语义相似度计算模块,根据数据模块提供的分布表示的词句向量等数据,结合相关模型算法,计算病例之间的语义相似性。决策过程子模块结合评价模块003的需求选择不同的算法模型;语义相似度算法子模块存储若干算法,用于计算两个病情描述Q和D语义相似度sim(Q,D),其计算思路主要根据所述数据模块001提供的词句分布表示的向量,结合相关信息检索模型或相关策略,得到病例的语义相似性;推荐排序模块根据语义相似度算法模块执行结果,结合产品设计要求,确定最终推荐病例个数等,提供给在线模块004。优化地,所述评估模块003用于根据需求设定相应指标并提供给推荐模块,供其算法选择做参考,其包括准确率、召回率、MAP值等。优化地,所述在线模块004执行所述推荐模块的结果,同时实时为数据模块提供相关数据;其中推荐子模块将推荐病例传送给用户,用户将对推荐病例的反馈返回给反馈子模块。为了实现上述目的,根据本专利技术的另一方面,提出一种相似病例推荐系统的使用方法,其具体技术方案为:一种基于词句分布表示的相似病例推荐的系统的使用方法:其特征在于,该方法包含以下步骤:步骤S1:数据模块采集实时病例信息,预处理后联合历史病例进行分词;步骤S2:根据步骤S1的分词结果,进行词句的分布表示训练;步骤S3:将步骤S1和步骤S2的结果按需传递至推荐模块;步骤S4:评估模块按要求设定任务的评定指标,然后传递至推荐模块的决策子模块中;步骤S5:推荐模块的决策子模块根据评定指标选取相关算法模型;步骤S6:根据步骤S3和步骤S5的结果,推荐模块语义相似度计算子模块计算历史病例与当前病例之前的语义相似度;步骤S7:推荐模块的推荐排序单元本文档来自技高网...
【技术保护点】
一种基于词句分布表示的相似病例推荐的系统,其特征在于:包含数据模块、推荐模块、评估模块和在线模块;所述数据模块包含数据采集子模块、数据存储子模块、数据预处理子模块、分词子模块和词向量训练子模块;所述推荐模块包含决策子模块、语义相似度算法子模块、推荐排序子模块;所述在线模块包含推荐子模块和反馈子模块;数据模块将有效数据传送给推荐模块,推荐模块接收来自数据模块的数据和评估模块的指标,推荐相关病例,将推荐结果传递至在线模块;在线模块将推荐结果传递给用户,同时用户将推荐结果的反馈返回在线模块。
【技术特征摘要】
1.一种基于词句分布表示的相似病例推荐的系统,其特征在于:包含数据模块、推荐模块、评估模块和在线模块;
所述数据模块包含数据采集子模块、数据存储子模块、数据预处理子模块、分词子模块和词向量训练子模块;所述推荐模块包含决策子模块、语义相似度算法子模块、推荐排序子模块;所述在线模块包含推荐子模块和反馈子模块;数据模块将有效数据传送给推荐模块,推荐模块接收来自数据模块的数据和评估模块的指标,推荐相关病例,将推荐结果传递至在线模块;在线模块将推荐结果传递给用户,同时用户将推荐结果的反馈返回在线模块。
2.根据权利要求1所述的基于词句分布表示的相似病例推荐的系统,其特征在于:所述数据模块通过数据采集子模块采集在线数据、通过数据存储子模块存储历史数据,通过数据预处理子模块和分词子模块将数据进行提取和去噪声等处理,并将数据转化成符合要求的格式,词向量训练子模块提供相似度计算所要求的词向量等数据;
其中数据采集单元与在线模块相连,实时采集在线提问和反馈等相关数据;分词功能子模块与词向量训练子模块和推荐模块中的语义相似度算法子模块相连,按需求对存储数据进行分词;词向量训练模块与推荐模块中的语义相似度算法子模块相连,可将词句映射至多维连续空间,将词句分布表示成向量形式,并定期更新。
3.根据权利要求1所述的基于词句分布表示的相似病例推荐的系统,其特征在于:所述推荐模块可挖掘历史病例数据,为在线提问推荐可参考性病例;其中,决策单元与评估模块相连,根据其提供的评估指标,确定语义相似度算法的选择;语义相似度计算模块,根据数据模块提供的分布表示的词句向量等数据,结合相关模型算...
【专利技术属性】
技术研发人员:赵一飞,王飞跃,施小博,
申请(专利权)人:青岛中科慧康科技有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。