一种实时手术反馈分类方法及系统技术方案

技术编号：39067581 阅读：26 留言：0更新日期：2023-10-12 20:00

本发明专利技术公开了一种实时手术反馈分类方法及系统，该方法包括数据获取、数据预处理、创建类别标签词汇库、优化类别标签词汇库和手术反馈分类预测，本发明专利技术涉及医疗信息化技术领域，具体是指一种实时手术反馈分类方法及系统。本方案利用BERT模型中的掩码语言建模任务，实现了根据待分类文本中的关键词进行快速预分类，提高了实时手术反馈分类的效率，采用先验概率结合上下文语义分析的方法，去除一部分使用频率低的标签词并精选出与类别词高度相关的标签词，提高了实时手术反馈分类准确率，用BERT模型计算分类标签词汇库中标签词对类别标签的贡献得分，实现了将对类别标签词的预测转化为具体分类类别的预测，提高了实时手术反馈分类的可靠性。类的可靠性。类的可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
一种实时手术反馈分类方法及系统

[0001]本专利技术涉及医疗信息化
，具体是指一种实时手术反馈分类方法及系统。

技术介绍

[0002]实时手术反馈分类是指将手术过程中进行的不同类型的操作标准化为特定的编码，以便在医疗记录、医疗保险申报、统计分析等方面进行统一的记录和处理；通过将各种手术过程操作赋予独特的编码，医疗专业人员可以更加精确地描述和标识患者接受的治疗方式，使得医疗团队能够在全球范围内进行交流与合作；但是在已有的实时手术反馈分类方法中，存在着缺少一种能够根据编码规则确定的类别制定类别标签词汇库的方法，导致无法确定待分类文本中的关键词，从而无法快速进行分类判别的问题；在已有的实时手术反馈分类方法中，存在着难以挑选高质量的类别标签指示词，导致预训练模型分类性能下降以及泛化能力不足，降低实时手术反馈分类准确性的问题；在已有的实时手术反馈分类方法中，存在着缺少一种能够将待分类文本中的关键词映射到具体分类类别的方法，导致无法实现利用类别标签词判定具体类别的问题。

技术实现思路

[0003]针对上述情况，为...

【技术保护点】

【技术特征摘要】
1.一种实时手术反馈分类方法，其特征在于：该方法包括以下步骤：步骤S1：数据获取；步骤S2：数据预处理；步骤S3：创建类别标签词汇库；步骤S4：优化类别标签词汇库；步骤S5：手术反馈分类预测；在步骤S3中，所述创建类别标签词汇库具体包括以下步骤：步骤S31：确定具体分类标签，具体为根据疾病编码规则，确定该编码规则下划分的类别标签；步骤S32：获得类别标签指向词集合，具体包括以下步骤：步骤S321：构建训练样本集；步骤S322：计算类别标签相近词的概率分布；步骤S323：获得类别标签相近词集合；步骤S324：建立寻找类别标签指向词的训练任务；步骤S325：获得类别标签指向词集合，具体为对于步骤S323中所述训练任务中所预测出的可替换原类别标签的类别标签相似词中，存在超过20个与所述类别标签相近词表重合的，将该类别标签相近词作为类别标签指向词，加入到类别标签指向词集合中，得到类别标签指向词集合；步骤S33：将步骤S325获得的类别标签指向词集合作为对应类别标签的词汇库，得到类别标签词汇库。2.根据权利要求1所述的一种实时手术反馈分类方法，其特征在于：在步骤S321中，所述构建训练样本集，具体为将历史数据作为原始数据集，将该数据集中所有包含所述类别标签词的文本构成训练样本集；步骤S322：计算类别标签相近词的概率分布，具体为对所述训练样本集中出现类别标签词的语句，将其上下文词嵌入向量h输入到BERT模型中，通过掩码语言建模任务计算在语义上能够替换类别标签词的相近词概率分布，公式如下：P(w|h)=softmax(W2σ(W1h+b))；式中，P(w|h)为类别标签相近词的概率分布，w为类别标签相近词，h为类别标签词位置的词嵌入向量，σ(
·
)为激活函数，W1，W2和b为BERT模型掩码语言建模任务的可学习参数；步骤S323：获得类别标签相近词集合，具体为根据步骤S322中得到的概率分布选取概率分布最大的前50个相近词构成类别标签相近词集合；步骤S324：建立寻找类别标签指向词的训练任务，具体为使用[MASK]标记对所述类别标签相近词进行遮掩后再进行掩码语言建模任务，训练任务的损失函数如下：；式中，L
cls_ind
为训练任务的损失函数，c
w
为类别标签相近词所属的类别，h
w
为类别标签相近词位置的词嵌入向量，p(c
w
|h
w
)为类别标签词的概率分布；步骤S325：获得类别标签指向词集合，具体为对于步骤S324中所述训练任务中所预测出的可替换原类别标签的类别标签相似词中，存在超过20个与所述类别标签相近词表重合
的，将该类别标签相近词作为类别标签指向词，加入到类别标签指向词集合中，得到类别标签指向词集合。3.根据权利要求1所述的一种实时手术反馈分类方法，其特征在于：在步骤S4中，所述优化类别标签词汇库具体包括以下步骤：步骤S41：计算标签词的先验分布，具体为将类别标签词汇库中的词记为标签词，将所述原始数据集中包含标签词文本的分布记为D，通过对整个文本分布的概率进行期望，得到标签词的先验分布，计算公式如下：；式中，P
D
(v)为标签词的先验分布，v为标签词，x为原始数据集中包含标签词的文本，D为原始数据集中包含标签词文本的分布，P(v|x)为包含标签词的文本在原始数据集中的分布概率；步骤S42：上下文校准，具体为使用标签词的上下文先验概率校准标签词的预测分布，以弱化不同标签词之间的先验分布巨大差异，计算公式如下：；式中，P(v|x)为包含标签词的文本在原始数据集中的分布概率，P
D
(v)为标签词的先验分布；步骤S43：处理罕见词，具体为利用步骤S41得到的标签词的先验分布，剔除类别标签词汇库中分布概率小的标签词；步骤S44：确定标签词与类别标签的相关性，具体为计算所述标签词与类别标签的余弦相似性，将余弦相似性作为相关性得分，计算公式如下：r(v，y)=cos(q
v
，q
y
)；式中，r(v，y)为标签词与类别标签的余弦相似性，cos(
·
)为余弦函数，v为标签词，y为标签词对应的类别标签，q...

【专利技术属性】
技术研发人员：邹文，刘新尧，荣霞，
申请(专利权)人：中国人民解放军总医院第六医学中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人