当前位置: 首页 > 专利查询>吉林大学专利>正文

基于Bi-LSTM与TF-IDF的新冠疫情预测与分析方法技术

技术编号:27882920 阅读:43 留言:0更新日期:2021-03-31 01:30
本发明专利技术提供一种基于Bi‑LSTM与TF‑IDF的新冠疫情预测与分析方法,具体为:根据目标区域的类别收集病患信息;P2,利用Bi‑LSTM模型对病患的关键信息进行识别和提取;P3,利用TF‑IDF模型计算得到已抽取信息的权重系数;P4,利用多分类SVM对信息进行分类;P5,筛选信息形成患者路径地图/疫情传播关系树并预测疫情始发地/零号病人。本发明专利技术综合利用人工智能和自然语言处理技术,针对区域的不同情况采取相应的处理策略,动态建立预测模型,通过应用机器学习中的分类模型以及实际情况,对信息对应的权重系数进行了多次调整,使得预测过程更符合客观科学规律和疫情实际情况,从而能够分析出目标区域的疫情源头信息,在遏制疫情蔓延的同时,从源头上避免疫情的肆虐乃至复发。

【技术实现步骤摘要】
基于Bi-LSTM与TF-IDF的新冠疫情预测与分析方法
本专利技术涉及自然语言处理(NLP)和深度学习领域,尤其涉及一种基于Bi-LSTM与TF-IDF的新冠疫情预测与分析方法。技术背景2020年1月12日,世界卫生组织正式将新肺炎的病原体-2019新型冠状病毒命名为2019-nCoV。截至目前,全球累积死亡人数已逾百万大关,国外每日新增确诊病例也以万为单位,国外形势十分严峻。由于患者基数大,而且需要统计每名患者一段时间内的具体行程,所以需要应用自然语言处理与深度学习等计算机技术对大量的文本内容进行提取并且加以分类。自然语言处理(NLP)是人工智能(AI)的一个重要方向。自然语言处理是一个涉及语言学、计算机科学以及人工智能,用于实现人类与计算机之间借助自然语言进行通信的领域。因此,自然语言处理能够创造出理解自然语言并对自然语言进行处理和分析的计算机系统。现代自然语言处理往往需要面对海量文本信息,因此通常借助机器学习以及深度学习中的人工神经网络来实现相应的技术功能。本专利技术主要使用自然语言处理技术作为信息抽取(Inform本文档来自技高网...

【技术保护点】
1.一种基于Bi-LSTM与TF-IDF的新冠疫情预测与分析方法,其特征在于,包括:/nPart_1:根据目标区域的类别收集病患信息,/nPart_2:利用Bi-LSTM模型对已获取的病患信息进行识别和信息抽取,/nPart_3:利用TF-IDF模型计算已抽取信息的初始权重系数,并调整相应的权重,/nPart_4:利用SVM多分类分类器对地点、人名进行分类,并优化相应的权重,/nPart_5:筛选信息并形成患者路径地图、疫情传播关系树,预测疫情始发地、零号病人;/n一种基于Bi-LSTM与TF-IDF的新冠疫情预测与分析方法,所使用的数据结构,函数和过程描述如下:/n(1)个人关系信息文档Pe...

【技术特征摘要】
1.一种基于Bi-LSTM与TF-IDF的新冠疫情预测与分析方法,其特征在于,包括:
Part_1:根据目标区域的类别收集病患信息,
Part_2:利用Bi-LSTM模型对已获取的病患信息进行识别和信息抽取,
Part_3:利用TF-IDF模型计算已抽取信息的初始权重系数,并调整相应的权重,
Part_4:利用SVM多分类分类器对地点、人名进行分类,并优化相应的权重,
Part_5:筛选信息并形成患者路径地图、疫情传播关系树,预测疫情始发地、零号病人;
一种基于Bi-LSTM与TF-IDF的新冠疫情预测与分析方法,所使用的数据结构,函数和过程描述如下:
(1)个人关系信息文档Person的数据结构,定义如下
数据项1,Item_1:文档在语料库中的编号number,
数据项2,Item_2:该文档对应的患者姓名name,
数据项3,Item_3:经Bi-LSTM模型处理后的密切接触者信息集people,
数据项4,Item_4:密切接触者对应的权重系数集weight,
数据项5,Item_5:密切接触者的顺序信息order,
数据项6,Item_6:密切接触者的密切接触程度级别class;
(2)个人行程信息文档Route的数据结构,定义如下
数据项1,Item_1:文档在语料库中的编号number,
数据项2,Item_2:该文档对应的患者姓名name,
数据项3,Item_3:经Bi-LSTM模型处理后的途经地点信息集sites,
数据项4,Item_4:途经地点对应的权重系数集weight,
数据项5,Item_5:途经地点的顺序信息order,
数据项6,Item_6:途经地点的风险度级别class;
(3)二级个人行程信息文档IntegratedRoute的数据结构,定义如下
数据项1,Item_1:文档在语料库中的编号number,
数据项2,Item_2:该文档对应的患者姓名name,
数据项3,Item_3:遴选后的途经地点信息集sites,
数据项4,Item_4:遴选后的途经地点对应的权重系数集weight,
数据项5,Item_5:遴选后的途经地点的顺序信息order;
(4)二级整合关系文档IntegratedPerson的数据结构,定义如下
数据项1,Item_1:遴选出的人员数量count,
数据项2,Item_2:遴选出的人员对应的个人关系信息文档在语料库中的编号集number,
数据项3,Item_3:遴选出的人员对应的权重系数集weight,
(5)输入多分类SVM分类器的地点特征数据集RouteFeatureSet的数据结构,定义如下
数据项1,Item_1:地点名称site,
数据项2,Item_2:该地点所处区域的人口稠密度density,
数据项3,Item_3:该地点露天情况TF1,
数据项4,Item_4:该地点要求佩戴口罩情况TF2,
数据项5,Item_5:该地点日均人流量flow,
数据项6,Item_6:该地点的风险度级别label;
(6)输入多分类SVM分类器的关系特征数据集PersonFeatureSet的数据结构,定义如下
数据项1,Item_1:当前分析的患者姓名name,
数据项2,Item_2:接触者与患者是同居关系情况TF1,
数据项3,Item_3:接触者与患者共同用餐的次数count1,
数据项4,Item_4:接触者与患者有过密切接触情况TF2,
数据项5,Item_5:接触者与患者的见面次数count2,
数据项6,Item_6:该接触者的密切接触程度等级label;
(7)多分类SVM,定义如下
具体过程:采用“一对一”方法将机器学习中的SVM改造为多分类SVM,即组合多个二分类SVM来构造多分类SVM;训练时依次把相同特征类别的样本归为一类,其它不同特征的样本归为另一类;分类时将未知样本分类为具有最大分类函数值的一类,
输入及目的:经过了人工标记的命名实体:包括人名/地点的特征数据集,实现对多分类SVM进行训练剩余的未经人工标记的命名实体特征数据集,需要通过已经训练好的多分类SVM划分,
输出及结果:所有的命名实体都被标记,即在label中标记所对应的级别、等级;
(8)Bi-LSTM+CRF模型,定义如下
具体过程:Bi-LSTM+CRF模型是一个三层结构的人工神经网络,分为表示层(Look-upLayer)、Bi-LSTM层和CRF层,
Bi-LSTM层的输入:经过随机初始化获得的由CharacterEmbedding构成的向量,
Bi-LSTM层的输出:每一个标签的预测分值,
CRF层的输入:每一个标签的预测分值,
CRF层的输出:每个单元的标签;
(9)TF-IDF模型,定义如下
具体过程:TF-IDF权重=TF*IDF,其中,TF表示词条在文档中出现的频率,IDF为总文件数目除以包含该词条的文件的数目的商取以10为底的对数,
输入:词条所在文档和所在语料库,
输出:词条的TF-IDF权重;
(10)系统过程Task,定义如下
Task{
Task_1:根据期望得到的结果:包括疫情始发地、零号病人,及目标区域的类别:由不同级别地区收集病患信息:包括行动路径、密切接触者,
Task_2:应用Bi-LSTM+CRF模型对海量的原始文本信息进行预处理,
Task_3:应用TF-IDF模型计算获得人名、地点在预测模型中的初始权重系数,
Task_4:用多分类SVM对人名、地点进行相应的等级划分,并根据划分的等级对权重系数进行调整优化,
Task_5:按照权重系数对人名、地点信息进行一轮筛选,
Task_6:将筛选出来的地点信息标记在地图中并根据到达的先后顺序绘制个人路径,形成“疫情地图”,根据权重系数的大小和密切接触关系,将筛选出来的病患关系信息绘制成“疫情传播树”,
Task_7:根据路径的几何特征及相交情况,对地点信息进行权重系数的调整优化,
Task_8:当前权重系数最高的地点即为预测的“疫情始发地”,当前权重系数最高的姓名对应的人员即为预测的“零号病人”,
Task_i:预留用户执行指令和过程,
}
其中,Task_1实现对患者的行程信息、人际关系信息的采集,Task_2应用Bi-LSTM+CRF模型对获取的海量文本信息进行关键信息的标记与提取,并存储在相应的文档中,Task_3表示应用TF-IDF模型计算不同词条在所处语料库中词频(TermFrequency,TF)以及逆向文件频率IDF,从而得到TF-IDF系数,该系数作为人名、地点在预测模型中的初始权重系数,Task_4表示对人名、地名进行分级;首先,根据特征数据集对一部分密切接触者、途经地点对应的与患者的密切接触等级label,和该地点的风险度级别label进行人工标记,并用这部分标记好的数据训练多分类SVM;然后,将剩余的未分好类的人名、地名输入已经训练好的多分类SVM,进行等级的划分;其中,与患者的密切接触等级label分为三种,分别是重度、中度和轻度;而地点的风险度级别label分为低级,中级,高级三种;同时,根据由多分类SVM划分的等级,对人名、地名信息的初始权重系数进行第一轮优化调整,并按照相应比例增加、减少权重系数,Task_5表示对于人名信息,遴选出对应的权重系数较大的n个人;对于地点信息,遴选出个人途径地点中权重系数最大的m个地点;其中,n和m由用户初始化,Task_6表示根据目前的权重系数对人名、地名信息进行整合优化,对于人名信息,根据权重系数的大小关系绘制“疫情传播树”;对于地点信息,按照到达各地点的先后顺序绘制个人行程路径,当所有个人行程路径都标记在地图中后,“疫情地图”完成绘制,Task_7表示对于地名信息,统计“疫情地图”中的路径交点的情况,对于有越多路径相交的地点,其权重系数就被增大得越多,反之,有越少路径相交的地点,其权重系数就被增大得越少,Task_8代表根据当前的权重系数,即最终权重系数求得最终结果,即疫情始发地、零号病人,从而使目标区域能够开展更加科学有效的疫情防控工作,及时阻止新冠疫情的蔓延,Task_i是系统给用户预留的执行指令和过程,以满足用户扩展功能的需求;
系统所使用的数据结构,函数和过程描述完毕;
一种基于Bi-LSTM与TF-IDF的新冠疫情预测与分析方法,所述特征如下:
Part_1,根据期望得到的结果:疫情始发地、零号病人、目标区域的类别,收集病患的信息:行动路径、密切接触者,具体为:
获取的信息是文本形式,通过在目标区域的官方网站搜集信息,利用python工具将患者信息下载,获得区域患者信息,包括人际关系信息和行程信息,输入预测模型的信息储存于文本信息中,需要对信息进行清洗和抽取;
所述特征Part_1描述完毕;
Part_2:利用Bi-LSTM+CRF模型对已获取的病患信息进行识别和信息抽取,具体为:
将不同患者的信息存在不同的文档中,对于每一个文档,都采用Bi-LSTM+CRF模型进行一次信息识别和提取;在Bi-LSTM+CRF模型,采用的BIO标注集,B-PER、I-PER代表人名首字和人名非首字,B-LOC、I-LOC代表地名首字和地名非首字,B-ORG、I-ORG代表组织机构名首字和组织机构名非首字,O代表该字不属于命名实体的一部分;
对于一个文档的一次基于Bi-LSTM+CRF模型的信息识别和提取,描述具体流程:
Bi-LSTM+CRF模型的第一层是Look-up层;将一个含有n个字的文本段记作X=(x_1,x_2,...,x_n),其中x_i表示文本的第i个字在字典中的id,进而得到每个字的one-hot向量,维数是字典容量;利用随机初始化的embedding矩阵将文本中的每个字x_i由one-hot向量映射为CharacterEmbedding;
Bi-LSTM+CRF模型的第二层是Bi-LSTM层;将一个文本的CharacterEmbedding序列X作为Bi-LSTM的各个时间步的输入,再将Bi-LSTM中的正向LSTM输出的隐状态序列



与反向LSTM的



在每个位置输出的隐状态进行按位置拼接由此得到完整的隐状态序列h=(h_1,h_2,...,h_n);然后,通过加入一个线性层将隐状态向量从n维映射到k维,其中k是标注集的标签数,从而得到自动提取的句子特征,记作矩阵P=(p_1,p_2,...,p_n):把矩阵p_i的每一维p_ij都视作将字x_i分类到第j个标签的打分值;然后,接入CRF层来进行标注;
Bi-LSTM+CRF模型的第三层是CRF层,该层的功能是进行序列标注;CRF层的参数是一个(k+2)×(k+2)的矩阵A,其中A_ij表示的是从第i个标签到第j个标签的转移得分,在为一个位置进行标注的时候利用已经标注过的标签,加2的目的是因为要在文本首部添加一个起始状态并在文本尾部添加一个终止状态;
假设一个文本长度的标签序列Y=(y_1,y_2,...,y_n),那么Bi-LSTM+CRF模型对于文本X的标签等于

<...

【专利技术属性】
技术研发人员:刘晓夏吕颖达
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1