一种基于骨科症状特征选取的文本处理方法技术

技术编号：24097756 阅读：43 留言：0更新日期：2020-05-09 11:16

本发明专利技术涉及基于骨科症状特征选取的文本处理方法，属计算机自然语言处理领域。本发明专利技术首先进行初始候选标签集的选取，将症状信息与患者标签信息、原始问句经神经网络得到的深度特征，一起联合输入Softmax层，选择概率最大的Top K对应标签作为初始候选标签集；再进行“二阶”标签相关性计算：根据计算上一步得到的初始候选标签集合中每对标签的条件概率来考察两两标签之间的交互关系，同时设定一个阈值来决定后续候选标签的取舍；再后处理：在得到初始候选标签集基础上，利用“二阶”标签相关性和阈值进行反复取舍，作为最终结果；本发明专利技术在各项评价指标上都优于传统的ML‑KNN、Rank‑SVM、AdaBoost.M2算法。

A text processing method based on the feature selection of orthopedic symptoms

全部详细技术资料下载

【技术实现步骤摘要】
一种基于骨科症状特征选取的文本处理方法
本专利技术涉及一种基于骨科症状特征选取的文本处理方法，属于计算机自然语言处理

技术介绍
有关健康保健的研究一直都是科学研究中最重要的部分，因为没有人能够会对身体病痛产生免疫。现有的文献各种各样，但大致可以分为四个研究方向，即信息提取、疾病推断、预防医学及医疗检索。从医疗文本中进行信息提取是其他更高层次分析的基础，因此，如何做到有效的信息提取极为重要，但在信息提取中还存在诸多问题：首先，不同用户之间的表述差距使得医疗问答数据，相较于其它医疗健康数据，格式更不一致，是非结构化的，并且口语化严重。例如，对于相同症状“头疼”，不同用户可能使用“脑袋特别痛”或“头疼得难受”等来表述。其次，用户要在短短数十字的问题中描述他们的症状，相比与医生面对面交流或者那种复杂详细的电子健康记录，问句所包含的信息很少。这种不完整性可能会阻碍基于共享上下文的有效相似性估计。另外，医疗属性诸如年龄，性别、症状等，都是高度相关的，但是通常并没有以特别紧凑的形式出现来表征疾病，比如“胸闷”、“喘气”和“呼吸困...

【技术保护点】
1.一种基于骨科症状特征选取的文本处理方法，其特征在于：所述方法的具体步骤如下：/nStep1、初始候选标签集选取：集中、强化骨科咨询文本的特征，在症状识别的基础上，再结合患者的标签信息以及原始文本信息的深度特征，一起作为问句的深度特征表示输入到Softmax层中进行初始候选标签选取；/nStep2、“二阶”标签相关性计算：经Step1操作之后，对初始候选标签集中每一个标签，分别求出它与其他标签的“二阶”关系；/nStep3、后处理，结果输出：得到K个初始候选标签及利用条件概率计算出候选标签集之间的“二阶”相关性并二次设定阈值后，进行后处理操作，得到最终结果。/n

【技术特征摘要】
1.一种基于骨科症状特征选取的文本处理方法，其特征在于：所述方法的具体步骤如下：
Step1、初始候选标签集选取：集中、强化骨科咨询文本的特征，在症状识别的基础上，再结合患者的标签信息以及原始文本信息的深度特征，一起作为问句的深度特征表示输入到Softmax层中进行初始候选标签选取；
Step2、“二阶”标签相关性计算：经Step1操作之后，对初始候选标签集中每一个标签，分别求出它与其他标签的“二阶”关系；
Step3、后处理，结果输出：得到K个初始候选标签及利用条件概率计算出候选标签集之间的“二阶”相关性并二次设定阈值后，进行后处理操作，得到最终结果。

2.根据权利要求1所述的基于骨科症状特征选取的文本处理方法，其特征在于：所述步骤Step1的具体步骤如下：
Step1.1、首先集中、强化骨科咨询文本的特征，在症状识别的基础上，再结合患者的标签信息以及原始文本信息的深度特征；其中标签信息包括性别、年龄；
其中，原始问句利用基于多窗口卷积和双向门控循环神经网络的深度模型得到其深度特征表示，词向量构成的原始问句表示采用单通道模式先输入到CNN中，使用2、3、4，三种不同窗口长度的卷积核若干个，分别对问句进行从前到后的卷积操作，卷积操作之后不继续池化操作，避免造成问句的时序信息不完整，从而影响后续序列建模；将相同窗口长度的卷积特征重新进行排列组合，再分别顺序、逆序输入到对应的前向、后向GRU中，最终将三种Bi-GRU的输出结果拼接得到问句更...

【专利技术属性】
技术研发人员：黄青松，郭峰，余慧，刘利军，冯旭鹏，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南;53

全部详细技术资料下载我是这个专利的主人