【技术实现步骤摘要】
一种基于肺结核预警的语音数据库分类和处理系统
[0001]本专利技术涉及语音数据库处理领域,更具体地说,涉及一种基于肺结核预警的语音数据库分类和处理系统
。
技术介绍
[0002]肺结核是一种由结核杆菌引起的传染性疾病,其潜在性及高度的传染性使得它在全球范围内成为公共卫生的重要议题
。
尤其在高风险地区,肺结核的感染率相对较高,导致了巨大的医疗负担和公共健康隐患
。
[0003]语音数据库在健康监测和疾病预警中有所潜力,由于肺结核患者的声带等会受到印象,且容易咳嗽,利用语音数据库进行前期筛查是可行的
。
然而,由于患者数量庞大,这些数据库的规模通常是巨大的
。
这使得对这些数据库进行有效的筛查和分类成为了一个技术挑战
。
若依赖人工操作,不仅效率低下,而且容易出错
。
但是,如果能够对于大众用户的语音数据库进行分类,将其分为肺结核相关的语音数据库,以及非肺结核相关的语音数据库,那么在前期,医疗团队便可以有针对性地优先审查肺 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种基于肺结核预警的语音数据库分类和处理系统,其特征在于,包括:大众用户语音数据库:包含用户
ID
以及用户的语音数据;肺结核患者语音数据库:包含肺结核患者的语音数据,所述语音数据中包含自述有关肺结核症状的语音数据;非肺结核患者语音数据库:包含非肺结核患者的语音数据,所述语音数据中包含非肺结核患者自述有关肺部状况的语音数据;自然语言处理模型:用于输入语音数据,提取有关肺结核症状或肺部状况的语音数据并转化为文本文字,并输出两种判断结果:肺结核相关或非肺结核相关;所述自然语言处理模型通过肺结核患者语音数据库和非肺结核患者语音数据库中的数据进行训练获得,具体训练过程为:将数据库中的语音数据转化为文本文字,提取有关肺结核症状或肺部状况的语音数据并转化为文本文字,并利用该文本文字作为输入,以文本文字所来源的数据库为标签进行训练,其中,来源于肺结核患者语音数据库对应的标签为肺结核相关,来源于非肺结核患者语音数据库对应的标签为非肺结核相关;所述自然语言处理模型连接于所述大众用户语音数据库,用于输入大众用户语音数据库中的语音数据,根据输出结果,将大众用户语音数据库分割为两类,一类为第一肺结核相关语音数据库,一类为第一非肺结核相关语音数据库;咳嗽识别机器学习模型:用于输入语音数据,提取咳嗽音,并输出两种判断结果:肺结核相关或非肺结核相关;所述咳嗽识别机器学习模型通过肺结核患者语音数据库和非肺结核患者语音数据库中的数据进行训练获得,具体训练过程为:提取数据库中的咳嗽音作为输入,以咳嗽音来源的数据库为标签进行训练,其中,来源于肺结核患者语音数据库对应的标签为肺结核相关,来源于非肺结核患者语音数据库对应的标签为非肺结核相关;所述咳嗽识别机器学习模型连接于所述大众用户语音数据库,用于输入大众用户语音数据库中的语音数据,根据输出结果,将大众用户语音数据库分割为两类,一类为第二肺结核相关语音数据库,一类为第二非肺结核相关语音数据库;语音模式识别机器学习模型:用于输入语音数据,提取语音模式特征,并输出两种判断结果:肺结核相关或非肺结核相关;所述语音模式识别机器学习模型通过肺结核患者语音数据库和非肺结核患者语音数据库中的数据进行训练获得,具体训练过程为:提取数据库中的语音模式特征作为输入,以语音模式特征来源的数据库为标签进行训练,其中,来源于肺结核患者语音数据库对应的标签为肺结核相关,来源于非肺结核患者语音数据库对应的标签为非肺结核相关;所述语音模式识别机器学习模型连接于所述大众用户语音数据库,用于输入大众用户语音数据库中的语音数据,根据输出结果,将大众用户语音数据库分割为两类,一类为第三肺结核相关语音数据库,一类为第三非肺结核相关语音数据库;数据库处理模块:用于根据多种要求处理肺结核相关语音数据库,至少包括:对第一非肺结核相关语音数据库
、
第二非肺结核相关语音数据库
、
第三肺结核相关语音数据库取并集,并集中包括用户
ID
和对应的语音数据;对第一非肺结核相关语音数据库
、
第二非肺结核相关语音数据库
、
第三肺结核相关语音数据库取交集,交集中包括用户
ID
和对应的语音数据
。2.
根据权利要求1所述基于肺结核预警的语音数据库分类和处理系统,其特征在于,所述语音模式特征包括语调
、
音色及说话速率特征
。
3.
根据权利要求1所述基于肺结核预警的语音数据库分类和处理系统,其特征在于:所述自然语言处理模型被训练为输出肺结核相关的概率
P1
和非肺结核相关的概率1‑
P1
;所述咳嗽识别机器学习模型被训练为输出肺结核相关的概率
P2
和非肺结核相关的概率1‑
P2
;所述语音模式识别机器学习模型被训练为输出肺结核相关的概率
P3
和非肺结核相关的概率1‑
P3。4.
根据权利要求3所述基于肺结核预警的语音数据库分类和处理系统,其特征在于,所述数据库处理模块还包括如下处理方式:对同一语音数据对应的概率
P1、P2、P3
,计算综合概率
P
,所述综合概率计算公式为:
P
i
中
i
=1~3,
w
i
为对应于
P
i
的权重;若综合概率
技术研发人员:林鸿波,沈鹏,孙烨祥,龚德光,
申请(专利权)人:宁波市鄞州区疾病预防控制中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。