【技术实现步骤摘要】
罕见病患者数量预测模型训练方法及装置
[0001]本公开涉及计算机
,尤其涉及一种罕见病患者数量预测模型训练方法及装置。
技术介绍
[0002]罕见病,又称为“孤儿病”,是发病率极低的一系列的疾病的统称。现阶段,全球已知的罕见病有8000余种,以遗传性疾病为主,全球受到罕见病影响的人群有超过2.6亿,我国约有2000万人,由于罕见病难发现、难诊断的特点,患病群体难以定位,且少受关注。因此在罕见病研究中,推进罕见病的早期精准筛查与识别研究具有重要意义,可逐步实现对罕见病人群的“早发现,早诊断,早治疗”,减少患者及家属的精神及经济负担。在罕见病的筛查和识别过程中,对罕见病发病趋势的研究具有重要意义。
[0003]在互联网时代,搜索引擎已成为获取信息的重要方式,用户的搜索查询数据能够反映一定的疾病状况及发展趋势。然而,现有的基于搜索引擎预测疾病数量及增长趋势的方法,如著名的谷歌趋势(Google Trend)预测流感的发展,均集中于传染病或流行病的研究,针对罕见病的预测方法目前仍是空白。与流感等流行病不同,罕见病具有 ...
【技术保护点】
【技术特征摘要】
1.一种罕见病患者数量预测模型训练方法,其特征在于,包括:对多种罕见病名称的文本进行预处理,获得罕见病查询关键词数据库;根据所述罕见病查询关键词数据库,以及搜索引擎的查询历史数据库,确定在多个地区的多个时间段内,对于多种罕见病的查询人数;根据所述在多个地区的多个时间段内,对于多种罕见病的查询人数,以及在多个地区的多个时间段内,多种罕见病的确诊人数,对罕见病患者数量预测模型进行训练,获得训练后的罕见病患者数量预测模型。2.根据权利要求1所述的方法,其特征在于,对多种罕见病名称的文本进行预处理,包括以下中的至少一种:对所述罕见病名称的文本中的符号文本进行预处理;对所述罕见病名称的文本中的字母文本进行预处理;对所述罕见病名称的文本中的数字文本进行预处理;对所述罕见病名称的文本中的预设文字进行预处理;对所述罕见病名称的文本中的缩写文本进行预处理;对所述罕见病名称的文本中的音译文本进行预处理。3.根据权利要求1所述的方法,其特征在于,对多种罕见病名称的文本进行预处理,获得罕见病查询关键词数据库,包括:将所述多种罕见病名称的文本,以及预处理后的文本添加至所述罕见病查询关键词数据库。4.根据权利要求1所述的方法,其特征在于,根据所述罕见病查询关键词数据库,以及搜索引擎的查询历史数据库,确定在多个地区的多个时间段内,对于多种罕见病的查询人数,包括:在所述搜索引擎的查询历史数据库中,确定多个地区的多个时间段内,针对所述罕见病查询关键词数据库中各种罕见病的查询次数,与对应地区的对应时间段内的查询总次数的次数比值;根据所述次数比值,以及所述对应地区的对应时间段内的人口数据,确定所述在多个地区的多个时间段内,对于多种罕见病的查询人数。5.根据权利要求1所述的方法,其特征在于,根据所述在多个地区的多个时间段内,对于多种罕见病的查询人数,以及在多个地区的多个时间段内,多种罕见病的确诊人数,对罕见病患者数量预测模型进行训练,获得训练后的罕见病患者数量预测模型,包括:对所述在多个地区的多个时间段内,对于多种罕见病的查询人数,以及在多个地区的多个时间段内,多种罕见病的确诊人数分别进行归一化处理,获得查询人数样本数据,以及确诊人数样本数据;根据所述确诊人数样本数据、以及所述查询人数样本数据输入所述罕...
【专利技术属性】
技术研发人员:张敏,李佳玉,刘奕群,马少平,苏航,张抒扬,金晔,张磊,
申请(专利权)人:中国医学科学院北京协和医院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。