【技术实现步骤摘要】
医学文献分类模型训练方法、医学文献分类方法及其装置
本公开一般涉及计算机
,尤其涉及一种医学文献分类模型训练方法、医学文献分类方法及其装置。
技术介绍
目前市面上提供的在线文献服务平台,与医学相关的文献服务较少且不够专业。例如以下几个平台:万方:对于医学文献,万方从医药、卫生方面对医疗相关的文献进行了粗粒度的划分。Pubmed:提供生物医学方面的论文搜寻以及摘要,其核心主题为医学,PubMed的文献不包括期刊论文的全文,可提供指向全文提供者(付费或免费)的链接。上述两个平台均未提供完备的医学文献的分类,且仅从一个维度进行类别划分,使得医生查找某一类文献时,不能很好地满足搜索需求。
技术实现思路
鉴于现有技术中的上述缺陷或不足,期望提供一种准确度高且能够进行多维度分类的医学文献分类模型训练方法、医学文献分类方法及其装置。第一方面,本申请提供一种医学文献分类模型的训练方法,包括:从样本文献中提取待标注数据;利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注,其中所述分类体系和标注规则库基于用户对医学文献的分类需求而构建,所述分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型。第二方面,本申请提供一种医学文献分类方法,包括:从待分类文献中提取待分类数据;利用根据本申请提供的各实施例的医学文献分类模型的训练方法训练后的医学文献分类模型对待分类数据进行分类预测,获得对应预测类别和对应预测概率;将所述预测概率与设定阈值进行比较,确定分类结果。第三方 ...
【技术保护点】
1.一种医学文献分类模型的训练方法,其特征在于,包括:从样本文献中提取待标注数据;利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注,其中所述分类体系和标注规则库基于用户对医学文献的分类需求而构建,所述分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型。
【技术特征摘要】
1.一种医学文献分类模型的训练方法,其特征在于,包括:从样本文献中提取待标注数据;利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注,其中所述分类体系和标注规则库基于用户对医学文献的分类需求而构建,所述分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型。2.根据权利要求1所述的方法,其特征在于,所述利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注包括:根据预设的规则词列表中包括的多个规则类及其包含的多个规则词,匹配出所述待标注数据所涉及的一个或更多个规则类;基于所述待标注数据所涉及的一个或更多个规则类,构建对应的规则类集树;将所述构建的规则类集树与所述标注规则库进行匹配,将所匹配的标注规则所关联的文献类别标注为所述样本文献的文献类别。3.根据权利要求2所述的方法,其特征在于,所述构建对应的规则类集树包括:对待标注数据所涉及的规则类的任一组合方式作为规则类集树的一条分支;并且所述将所述构建的规则类集树与所述标注规则库进行匹配包括:将构建的规则类集树中的每条分支分别与标注规则库进行最大正向匹配。4.根据权利要求1-3任一所述的方法,其特征在于,将标注数据作为训练数据对分类模型进行训练包括:对所述标注数据进行特征提取;根据所述特征构建最大熵分类模型作为所述医学文献分类模型。5.根据权利要求1-3任一所述的方法,其特征在于,还包括:在所述待标注数据进行标注之前,对所述待标注数据进行过滤去噪处理。6.根据权利要求1-3所述的方法,其特征在于,所述分类维度包括以下至少两项:文献类型、研究设计、研究对象、样本量。7.一种医学文献分类方法,其特征在于,包括:从待分类文献中提取待分类数据;利用根据权利要求1-6任一所述训练方法训练后的医学文献分类模型对待分类数据进行分类预测,获得对应预测类别和对应预测概率;将所述预测概率与设定阈值进行比较,确定分类结果。8.根据权利要求7所述的方法,其特征在于,将所述预测概率与设定阈值进行比较,确定分类结果包括:若所述预测概率不小于第一设定阈值,则确定所述预测类别为所述待分类文献的分类结果;若所述预测概率不大于第二设定阈值,则将所述待分类文献的类别划分至指定类别;若所述预测概率小于第一设定阈值大于第二设定阈值,则对所述标注规则库校正,以确定所属类别。9.根据权利要求8所述的方法,其特征在于,对所述标注规则库进行校正包括:对所述标注规则库进行调整,重复根据权利要求7所述的医学文献分类方法对所述待分类文献进行分类,直至所预测的预测概率不小于第一设定阈值或不大于第二设定阈值,并更新所述标注规则库。10.一种医学文献分类模型的训练装置,其特征在于,包括:提取单元:配置用于从样本文献中提取待标注数据;标注单元:配置用于利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注,其中所述分类体系和标注规则库基于用户对医学文献的分类需求而构建,所述分类体系包括至少两个分类维度,每个分类维度包括至...
【专利技术属性】
技术研发人员:张喜媛,曾刚,李林峰,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。