医学文献分类模型训练方法、医学文献分类方法及其装置制造方法及图纸

技术编号:19691922 阅读:18 留言:0更新日期:2018-12-08 11:12
本申请公开了一种医学文献分类模型训练方法、医学文献分类方法及其装置,该训练方法,包括:从样本文献中提取待标注数据;利用预先建立的分类体系和标注规则库,对待标注数据进行标注,其中分类体系和标注规则库基于用户对医学文献的分类需求而构建,分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型。根据本申请实施例提供的技术方案,通过对文献进行基于专业分类体系和标注规则的分类,能够解决现有医学文献的分类不够细化和专业的问题。

【技术实现步骤摘要】
医学文献分类模型训练方法、医学文献分类方法及其装置
本公开一般涉及计算机
,尤其涉及一种医学文献分类模型训练方法、医学文献分类方法及其装置。
技术介绍
目前市面上提供的在线文献服务平台,与医学相关的文献服务较少且不够专业。例如以下几个平台:万方:对于医学文献,万方从医药、卫生方面对医疗相关的文献进行了粗粒度的划分。Pubmed:提供生物医学方面的论文搜寻以及摘要,其核心主题为医学,PubMed的文献不包括期刊论文的全文,可提供指向全文提供者(付费或免费)的链接。上述两个平台均未提供完备的医学文献的分类,且仅从一个维度进行类别划分,使得医生查找某一类文献时,不能很好地满足搜索需求。
技术实现思路
鉴于现有技术中的上述缺陷或不足,期望提供一种准确度高且能够进行多维度分类的医学文献分类模型训练方法、医学文献分类方法及其装置。第一方面,本申请提供一种医学文献分类模型的训练方法,包括:从样本文献中提取待标注数据;利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注,其中所述分类体系和标注规则库基于用户对医学文献的分类需求而构建,所述分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型。第二方面,本申请提供一种医学文献分类方法,包括:从待分类文献中提取待分类数据;利用根据本申请提供的各实施例的医学文献分类模型的训练方法训练后的医学文献分类模型对待分类数据进行分类预测,获得对应预测类别和对应预测概率;将所述预测概率与设定阈值进行比较,确定分类结果。第三方面,本申请提供一种医学文献分类模型的训练装置,包括:提取单元:配置用于从样本文献中提取待标注数据;标注单元:配置用于利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注,其中所述分类体系和标注规则库基于用户对医学文献的分类需求而构建,所述分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;训练单元:配置用于将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型。第四方面,本申请提供一种医学文献分类装置,其特征在于,包括:提取单元:配置用于从对待分类文献中提取待分类数据;预测单元:配置用于利用本申请提供的各实施例的医学文献分类模型的训练装置训练后的医学文献分类模型对待分类数据进行分类预测,获得对应预测类别和对应预测概率;分类单元:配置用于将所述预测概率与设定阈值进行比较,确定分类结果。第五方面,本申请提供一种设备,设备包括:一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行各实施例提供的医学文献分类模型的训练方法。第六方面,本申请还提供一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现本专利技术各实施例提供的医学文献分类模型的训练方法。根据本申请实施例提供的技术方案,通过对文献进行基于专业分类体系和标注规则的训练,能够解决现有医学文献的分类不够细化和专业的问题。进一步的,根据本申请的某些实施例,对文献分词进行规则词的筛选,还能解决现有技术分类数据较大的问题,获得高效的分类效果。另一方面,通过对每条分支分别与标注规则库进行最大正向匹配,获得了文献数据较长时消除数据冗余的效果,提高了标注效率。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1示出了可以应用本申请实施例的示例性系统架构;图2示出了根据本申请实施例的医学文献分类模型的训练方法的示例性流程图;图3示出了根据本申请实施例步骤S102标注方法的示例性示意图;图4示出了规则类集树的示例性示意图;图5示出了步骤S103训练方法的示例性流程图;图6示出了根据本申请一个实施例的医学文献分类方法的示例性流程图;图7示出了根据本申请一个实施例的医学文献分类模型的训练装置的示例性示意图;图8示出了根据本申请一个实施例的医学文献分类装置的示例性示意图;图9示出了根据本申请实施例提供的一种设备的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户110可以使用终端设备101、102通过网络103与服务器104交互,以接收或发送消息等。终端设备101、102可以是各种电子设备,包括但不限于个人电脑、智能手机、智能手表、平板电脑、个人数字助理等等。服务器104可以是提供各种服务的服务器。服务器可以对接收到的数据进行存储、分析等处理,并将处理结果反馈给终端设备。需要说明的是,本申请实施例所提供的医学文献分类模型的训练方法和医学文献分类方法可以由终端设备101、102执行,也可以由服务器104执行,医学文献分类模型的训练装置及医学文献分类装置可以设置于终端设备101、102中,也可以设置于服务器104中。在一些实施例中,医学文献分类模型可以在服务器104中进行训练,训练后的医学文献分类模型可以存储在服务器104中,以用于对医学文献分类。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。本专利技术实施例具体可以包括两个部分,第一部分是对医学文献分类模型的训练,第二部分是依据训练出的医学文献分类模型对医学文献进行分类。参考图2,其示出了根据本申请一个实施例的医学文献分类模型的训练方法的示例性流程图。图2所示的方法可以在图1中的服务器上执行。如图2所示,在本实施例中,本专利技术提供的医学文献分类模型的训练方法包括:步骤S101:从样本文献中提取待标注数据;步骤S102:利用预先建立的分类体系和标注规则库,对待标注数据进行标注,其中分类体系和标注规则库基于用户对医学文献的分类需求而构建,分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;步骤S103将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型。在步骤S101,从样本文献中解析出标题、关键字和摘要中的一种多多种数据作为待标注数据。现有的文献分类系统未基于医疗数据进行建模分类,大部分采用已有的训练数据,仅基于采用的特征提取方法提取的特征建立分类模型,并且从一个维度进行所属类别的划分。本申请在步骤S102,基于经专业人员构建的多维度的分类体系和标注规则训练分类模型,使得每个文献可从不同的维度划分至每个维度下的各类别中,充分满足了医生查找医学文献的专业需求。优选地,在对待标注数据进行标注之本文档来自技高网...

【技术保护点】
1.一种医学文献分类模型的训练方法,其特征在于,包括:从样本文献中提取待标注数据;利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注,其中所述分类体系和标注规则库基于用户对医学文献的分类需求而构建,所述分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型。

【技术特征摘要】
1.一种医学文献分类模型的训练方法,其特征在于,包括:从样本文献中提取待标注数据;利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注,其中所述分类体系和标注规则库基于用户对医学文献的分类需求而构建,所述分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型。2.根据权利要求1所述的方法,其特征在于,所述利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注包括:根据预设的规则词列表中包括的多个规则类及其包含的多个规则词,匹配出所述待标注数据所涉及的一个或更多个规则类;基于所述待标注数据所涉及的一个或更多个规则类,构建对应的规则类集树;将所述构建的规则类集树与所述标注规则库进行匹配,将所匹配的标注规则所关联的文献类别标注为所述样本文献的文献类别。3.根据权利要求2所述的方法,其特征在于,所述构建对应的规则类集树包括:对待标注数据所涉及的规则类的任一组合方式作为规则类集树的一条分支;并且所述将所述构建的规则类集树与所述标注规则库进行匹配包括:将构建的规则类集树中的每条分支分别与标注规则库进行最大正向匹配。4.根据权利要求1-3任一所述的方法,其特征在于,将标注数据作为训练数据对分类模型进行训练包括:对所述标注数据进行特征提取;根据所述特征构建最大熵分类模型作为所述医学文献分类模型。5.根据权利要求1-3任一所述的方法,其特征在于,还包括:在所述待标注数据进行标注之前,对所述待标注数据进行过滤去噪处理。6.根据权利要求1-3所述的方法,其特征在于,所述分类维度包括以下至少两项:文献类型、研究设计、研究对象、样本量。7.一种医学文献分类方法,其特征在于,包括:从待分类文献中提取待分类数据;利用根据权利要求1-6任一所述训练方法训练后的医学文献分类模型对待分类数据进行分类预测,获得对应预测类别和对应预测概率;将所述预测概率与设定阈值进行比较,确定分类结果。8.根据权利要求7所述的方法,其特征在于,将所述预测概率与设定阈值进行比较,确定分类结果包括:若所述预测概率不小于第一设定阈值,则确定所述预测类别为所述待分类文献的分类结果;若所述预测概率不大于第二设定阈值,则将所述待分类文献的类别划分至指定类别;若所述预测概率小于第一设定阈值大于第二设定阈值,则对所述标注规则库校正,以确定所属类别。9.根据权利要求8所述的方法,其特征在于,对所述标注规则库进行校正包括:对所述标注规则库进行调整,重复根据权利要求7所述的医学文献分类方法对所述待分类文献进行分类,直至所预测的预测概率不小于第一设定阈值或不大于第二设定阈值,并更新所述标注规则库。10.一种医学文献分类模型的训练装置,其特征在于,包括:提取单元:配置用于从样本文献中提取待标注数据;标注单元:配置用于利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注,其中所述分类体系和标注规则库基于用户对医学文献的分类需求而构建,所述分类体系包括至少两个分类维度,每个分类维度包括至...

【专利技术属性】
技术研发人员:张喜媛曾刚李林峰
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1