一种基于骨科症状特征选取的文本处理方法技术

技术编号:24097756 阅读:36 留言:0更新日期:2020-05-09 11:16
本发明专利技术涉及基于骨科症状特征选取的文本处理方法,属计算机自然语言处理领域。本发明专利技术首先进行初始候选标签集的选取,将症状信息与患者标签信息、原始问句经神经网络得到的深度特征,一起联合输入Softmax层,选择概率最大的Top K对应标签作为初始候选标签集;再进行“二阶”标签相关性计算:根据计算上一步得到的初始候选标签集合中每对标签的条件概率来考察两两标签之间的交互关系,同时设定一个阈值来决定后续候选标签的取舍;再后处理:在得到初始候选标签集基础上,利用“二阶”标签相关性和阈值进行反复取舍,作为最终结果;本发明专利技术在各项评价指标上都优于传统的ML‑KNN、Rank‑SVM、AdaBoost.M2算法。

A text processing method based on the feature selection of orthopedic symptoms

【技术实现步骤摘要】
一种基于骨科症状特征选取的文本处理方法
本专利技术涉及一种基于骨科症状特征选取的文本处理方法,属于计算机自然语言处理

技术介绍
有关健康保健的研究一直都是科学研究中最重要的部分,因为没有人能够会对身体病痛产生免疫。现有的文献各种各样,但大致可以分为四个研究方向,即信息提取、疾病推断、预防医学及医疗检索。从医疗文本中进行信息提取是其他更高层次分析的基础,因此,如何做到有效的信息提取极为重要,但在信息提取中还存在诸多问题:首先,不同用户之间的表述差距使得医疗问答数据,相较于其它医疗健康数据,格式更不一致,是非结构化的,并且口语化严重。例如,对于相同症状“头疼”,不同用户可能使用“脑袋特别痛”或“头疼得难受”等来表述。其次,用户要在短短数十字的问题中描述他们的症状,相比与医生面对面交流或者那种复杂详细的电子健康记录,问句所包含的信息很少。这种不完整性可能会阻碍基于共享上下文的有效相似性估计。另外,医疗属性诸如年龄,性别、症状等,都是高度相关的,但是通常并没有以特别紧凑的形式出现来表征疾病,比如“胸闷”、“喘气”和“呼吸困难”经常同时发生来暗示“哮喘”,还有年纪越大患骨质疏松的可能性也越大。当然,构建各种疾病的基础知识库更是非常昂贵的。尽管研究者越来越关注使用机器学习技术来进行疾病症状特征文本处理,比如文献中提出一种学习框架,主要关注如何利用核磁共振图像完成阿尔茨海默病推断,主要通过整合视觉相似性和用户反馈。但上面这些因素限制了仅仅通过一般机器学习方法实现的性能,诸如决策树、SVM等算法,其学习策略的输出之后就紧跟着一个分类器,好像系统只有一层一样。通过分析医疗问答中文本处理的难点,相比传统方法,本方法先充分考虑中文医疗问答数据特点,即非结构化、口语化严重的短文本,包含信息较少,并且缺乏大量公开可利用的资源,故通过提取症状信息来主动集中、强化文本特征。此外,某些疾病相关的医疗属性并非密集分布,因此本方法在症状识别基础上结合患者基本信息如性别、年龄等,将疾病辅助诊断看作多标签分类问题,从多标签分类角度出发,去解决基于骨科病症特征的文本处理问题。
技术实现思路
本专利技术提供了一种基于骨科症状特征选取的文本处理方法,将文本处理看作多标签分类问题,从多标签分类角度出发,去解决基于骨科病症特征的文本处理问题。本专利技术的技术方案是:一种基于骨科症状特征选取的文本处理方法,所述方法的具体步骤如下:Step1、初始候选标签集选取:集中、强化骨科咨询文本的特征,在症状识别的基础上,再结合患者的标签信息以及原始文本信息的深度特征,一起作为问句的深度特征表示输入到Softmax层中进行初始候选标签选取;Step2、“二阶”标签相关性计算:经Step1操作之后,对初始候选标签集中每一个标签,分别求出它与其他标签的“二阶”关系;Step3、后处理,结果输出:得到K个初始候选标签及利用条件概率计算出候选标签集之间的“二阶”相关性并二次设定阈值后,进行后处理操作,得到最终结果。进一步地,所述步骤Step1的具体步骤如下:Step1.1、首先集中、强化骨科咨询文本的特征,在症状识别的基础上,再结合患者的标签信息以及原始文本信息的深度特征;其中标签信息包括性别、年龄;其中,原始问句利用基于多窗口卷积和双向门控循环神经网络的深度模型得到其深度特征表示,词向量构成的原始问句表示采用单通道模式先输入到CNN中,使用2、3、4,三种不同窗口长度的卷积核若干个,分别对问句进行从前到后的卷积操作,卷积操作之后不继续池化操作,避免造成问句的时序信息不完整,从而影响后续序列建模;将相同窗口长度的卷积特征重新进行排列组合,再分别顺序、逆序输入到对应的前向、后向GRU中,最终将三种Bi-GRU的输出结果拼接得到问句更高层次的深度特征表示;Step1.2、然后将输入层得到的深度特征表示输入到Softmax层中,进行初始候选标签选取;Step1.3、最后将问句文本属于各类别的概率值进行从大到小排列,输出前TopK的对应标签,以此作为候选标签的选取结果。进一步地,所述步骤Step2的具体步骤如下:Step2.1、经过Step1操作后,对初始候选标签集中每一个标签yi(1≤i≤m,假设标签集合大小为m),分别利用条件概率来求出它与其他标签的“二阶”关系;Step2.2、每当确定一个i,都将P(Fij)的值从大到小排列,以便下一步骤后处理操作中输出结果,P(Fij)表示在样本中Hi成立时,Hj也成立的事件的概率。进一步地,所述步骤Step3的具体步骤如下:Step3.1、首先将初始候选标签集中概率最大对应标签作为Top1标签预输出,其次将余下K-1个标签与Top1标签之间的条件概率做排序,取最大值,若最大值不小于阈值,则其对应标签作为新的Top1标签加入预输出集;Step3.2、以此类推,继续将余下标签与上一轮刚得到的Top1标签重复进行上一步操作;Step3.3、直到当前“二阶”条件概率的最大值小于阈值或者初始候选标签集中所有标签都处理完,则结束操作,然后输出预输出集,得到最终结果。进一步地,所提到的“二阶”相关性计算:有关标签相关性,主要可以分为三类:(1)“一阶(first-order)”相关性,主要考虑标签之间是相互独立的,此时就可以采用问题转化发法,把多标签分类问题转换成普通的分类问题,可是由于标签间可能存在的相关性被完全忽略,因此方法的泛化性能一般较低;(2)“二阶(second-order)”相关性:通过考察标签之间的两两相关性,如两两标签之间的交互关系等,从而设计多标签分类方法,因为在某种程度上考察了标签间的相关性,所以其涉及方法的泛化性能较优,同时也会增加一定的计算复杂度;(3)“高阶(high-order)”相关性:通常是考察多个标签之间的相关性,如处理一组随机标签集合的相关性等,这样尽管能够较好反映真实世界的标签相关性问题,可涉及的计算复杂度往往过高,难以处理标签数量较多的大规模学习问题。综上,选择“二阶”策略来处理疾病标签的相关性,并利用条件概率来计算,下面是具体计算过程。对初始候选标签集中每一个标签yi(1≤i≤m假设标签集合大小为m),分别求出它与其他标签的“二阶”关系。假设Fij表示在样本x中Hi成立时,Hj也成立的事件,这里Hi、Hj分别表示样本x含有标签i、j,如下式P(Fij)=P(Hj|Hi)=P(HjHi)/P(Hi)其中,P(HjHi)表示样本x中同时具有标签yi和yj的概率,由下式得到:其中,s表示平滑因子,这里令s为1,使用的是拉普拉斯平滑;Yx表示样本x的标签集。本专利技术的有益效果是:1、通过分析医疗问答中特征选取的难点,相比传统,先充分考虑中文医疗问答数据特点,即非结构化、口语化严重的短文本,包含信息较少,并且缺乏大量公开可利用的资源,故通过提取症状信息来主动集中、强化文本特征。此外,某些骨科疾病相关的医疗属性并非密集分布,因此,在症状识别基础上本文档来自技高网
...

【技术保护点】
1.一种基于骨科症状特征选取的文本处理方法,其特征在于:所述方法的具体步骤如下:/nStep1、初始候选标签集选取:集中、强化骨科咨询文本的特征,在症状识别的基础上,再结合患者的标签信息以及原始文本信息的深度特征,一起作为问句的深度特征表示输入到Softmax层中进行初始候选标签选取;/nStep2、“二阶”标签相关性计算:经Step1操作之后,对初始候选标签集中每一个标签,分别求出它与其他标签的“二阶”关系;/nStep3、后处理,结果输出:得到K个初始候选标签及利用条件概率计算出候选标签集之间的“二阶”相关性并二次设定阈值后,进行后处理操作,得到最终结果。/n

【技术特征摘要】
1.一种基于骨科症状特征选取的文本处理方法,其特征在于:所述方法的具体步骤如下:
Step1、初始候选标签集选取:集中、强化骨科咨询文本的特征,在症状识别的基础上,再结合患者的标签信息以及原始文本信息的深度特征,一起作为问句的深度特征表示输入到Softmax层中进行初始候选标签选取;
Step2、“二阶”标签相关性计算:经Step1操作之后,对初始候选标签集中每一个标签,分别求出它与其他标签的“二阶”关系;
Step3、后处理,结果输出:得到K个初始候选标签及利用条件概率计算出候选标签集之间的“二阶”相关性并二次设定阈值后,进行后处理操作,得到最终结果。


2.根据权利要求1所述的基于骨科症状特征选取的文本处理方法,其特征在于:所述步骤Step1的具体步骤如下:
Step1.1、首先集中、强化骨科咨询文本的特征,在症状识别的基础上,再结合患者的标签信息以及原始文本信息的深度特征;其中标签信息包括性别、年龄;
其中,原始问句利用基于多窗口卷积和双向门控循环神经网络的深度模型得到其深度特征表示,词向量构成的原始问句表示采用单通道模式先输入到CNN中,使用2、3、4,三种不同窗口长度的卷积核若干个,分别对问句进行从前到后的卷积操作,卷积操作之后不继续池化操作,避免造成问句的时序信息不完整,从而影响后续序列建模;将相同窗口长度的卷积特征重新进行排列组合,再分别顺序、逆序输入到对应的前向、后向GRU中,最终将三种Bi-GRU的输出结果拼接得到问句更...

【专利技术属性】
技术研发人员:黄青松郭峰余慧刘利军冯旭鹏
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1