一种生物医学文献层次主题树构建方法及装置制造方法及图纸

技术编号:36757857 阅读:18 留言:0更新日期:2023-03-04 10:50
本发明专利技术涉及生物医学文献内容检索、文本分类等技术领域,特别涉及一种生物医学文献层次主题树构建方法及装置,方法包括获取待处理的生物医学文献全文内容,预处理后得到标准待处理文档集;将标准待处理文档集每个文档中紧邻的3个句子分别处理为一个文档片段;将所有文档片段作为根节点,并利用隐狄利克雷分布方法对所有文档片段进行主题建模,生成两个主题;计算每个文档片段分别与其中某一个主题的相关度,对所有相关度进行计算和查找获得两个关键值,根据关键值将文档片段划分文档片段;若与主题相关的文档片段大于设定阈值,则继续生成新主题;本发明专利技术生成效率远远优于其它层次主题建模方法。题建模方法。题建模方法。

【技术实现步骤摘要】
一种生物医学文献层次主题树构建方法及装置


[0001]本专利技术涉及生物医学文献内容检索、文本分类等
,特别涉及一种生物医学文献层次主题树构建方法及装置。

技术介绍

[0002]主题建模方法通过对文本数据进行主题挖掘,可以获得文本主题信息和“文档——主题”分布,并可以此为基础进一步开展信息检索、文本分类、推荐系统等大量处理任务。现有层次主题树构建方法通过构建树状主题层次结构,能够获取主题之间的关系,目前主要包括以hLDA(hierarchical Latent Dirichlet Allocation,层次隐狄利克雷分布)为代表的基于LDA(Latent Dirichlet Allocation,隐狄利克雷分布)的层次主题模型,和以HLTA(Hierarchical Latent Tree Analysis,层次潜在树分析)为代表的潜在主题树两大类方法。这两大类方法都是概率生成式方法,在主题树生成过程中,会有相当多的潜在变量需要处理,时间和空间复杂度都相当高,处理海量生物医学文献全文数据这一类大文本集时很难在有限的时间内生成一棵完整的主题树。
[0003]生物医学文献是目前最重要的生物医学领域文本内容信息资源,随着生物医学领域科学研究的迅速发展,生物医学文献的数量也不断增加,比如Medline每天新增2000到4000篇生物医学文献。如何充分挖掘这些海量文本信息,从中发现新的医学知识,对生命科学相关研究领域有着非常重要的意义。通过对海量生物医学文献全文内容构建层次主题树,可以此为基础进一步开展主题分析、内容检索、文本分类等任务。

技术实现思路

[0004]为了更快处理生物医学文献层次主题建模任务,本专利技术提出一种生物医学文献层次主题树构建方法及装置,所述方法包括以下步骤:
[0005]S1、获取待处理的生物医学文献全文内容,并对获取的数据依次进行数据清洗、词形还原、去除停用词以及词干提取操作,得到标准待处理文档集;
[0006]S2、分别逐一将标准待处理文档集每个文档中紧邻的3个句子处理为一个文档片段;
[0007]S3、将所有文档片段作为根节点,并利用隐狄利克雷分布方法对所有文档片段进行主题建模,生成两个主题;
[0008]S4、计算每个文档片段分别与其中某一个主题的相关度,对所有相关度进行计算和查找获得两个关键值,若文档片段的相关度大于其中较大的一个关键值则将该文档片段划分到该主题下,并将该主题及属于该主题的文档片段作为一个叶子节点;反之,若文档片段的相关度小于其中较小的关键值则将该文档片段划分到另一个主题下,并将该主题及属于该主题的文档片段作为一个叶子节点;
[0009]S5、若与主题相关的文档片段大于设定阈值,则利用隐狄利克雷分布算法对每个主题下的文档片段进行主题建模,生成两个主题,并返回步骤S4。
[0010]进一步的,利用隐狄利克雷分布方法生成的主题由20个主题词构成。
[0011]进一步的,一个文档片段与一个主题的相关度,即生成该文本片段的主题分布。
[0012]进一步的,计算每个文档片段分别与其中某一个主题的相关度,对所有相关度进行计算和查找获得两个关键值,根据相关度与关键值的大小关系,分别将文档片段划分到不同主题下的过程包括以下步骤:
[0013]利用隐狄利克雷分布方法计算每个文档片段分别与其中某一个主题的相关度;
[0014]将具有相同相关度的不同文档片段进行计数,形成全部文档片段的相关度分布,使用具有2个高斯分布的高斯混合模型曲线来分布,表示为:
[0015][0016]其中,0≤x≤1,x表示文档片段分别与其中某一个主题的相关度;α1,α2为拟合系数;表示期望为μ
k
、方差为的标准高斯分布,k∈{1,2};
[0017]若(x0,y0)为高斯混合模型曲线f(x)的最低点,则设:
[0018][0019]其中,
[0020]在x轴上抽取分别位于[μ1,x0]之间的点m和位于[x0,μ2]之间的点n,分别计算g(m)和g(n),如果1

min(g(m),g(n))/max(g(m),令m=x1、n=x2并计算v,即:
[0021][0022]选取所有满足1

min(g(m),g(n))/max(g(m)的m和n继续计算v值,最终取v值最小时对应的m和n作为最优的关键值x1和x2;
[0023]将分布在(x2,1]之间的文档片段将被划分到该主题下,分布在[0,x1)之间的文档片段将被划分到另一主题下。
[0024]本专利技术还提供一种生物医学文献层次主题树构建装置,包括数据预处理模块、文档片段划分模块、层次主题树生成模块,其中:
[0025]数据预处理模块,用于对获取的生物医学文献全文内容依次进行数据清洗、词形还原、去除停用词以及词干提取操作,得到标准待处理文档集;
[0026]文档片段划分模块,用于将标准待处理文档集的一个文档中紧邻的3个句子处理为一个文档片段;
[0027]层次主题树生成模块,用于构建层次主题树,构建过程中根据所有文档片段调用基于隐狄利克雷分布方法的主题生成模型生成两个主题,计算每个文档片段分别与其中某一个主题的相关度,对所有相关度进行计算和查找获得两个关键值,若文档片段的相关度
大于其中较大的一个关键值则将该文档片段划分到该主题下,并判断主题下文档片段的数量,若大于设定阈值则调用基于隐狄利克雷分布方法的主题生成模型继续生成两个新主题,将该主题及属于该主题的文档片段作为一个叶子节点;若文档片段的相关度小于其中较小的关键值则将该文档片段划分到另一个主题下,并判断主题下文档片段的数量,若大于设定阈值则调用基于隐狄利克雷分布方法的主题生成模型继续生成两个新主题,将这个主题及属于这个主题的文档片段作为另一个叶子节点。不断迭代执行,直到不能继续划分。
[0028]本专利技术还提出一种生物医学文献层次主题树构建的计算机程序,用于实现一种生物医学文献层次主题树构建方法。
[0029]本专利技术还提出一种生物医学文献层次主题树构建的计算机,包括存储器和处理器,存储器中存储有计算机程序,处理器运行存储器中的计算机程序,实现一种生物医学文献层次主题树构建方法。
[0030]本专利技术通过递归地应用LDA,自顶向下自适应地生成一棵二叉主题树,与hLDA和HLTA相比,本专利技术生成的层次主题树具有良好的可解释性和主题质量,主题层次结构更加合理;并且由于采用自顶向下启发式地生成方式,本专利技术专利多构建的主题层次结构生成过程会特别快,生成效率远远优于其它层次主题建模方法,可以更适合于处理生物医学文献层次主题建模任务。
附图说明
[0031]图1为本专利技术一种生物医学文献层次主题树构建方法流程图;
[0032]图2为根据本专利技术方法构建的层次主题树示意图;
[0033]图3为现有技术hLDA方法在不同Medline摘要数据集上的执行时间示意图;
[0034本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生物医学文献层次主题树构建方法,其特征在于,具体包括以下步骤:S1、获取待处理的生物医学文献全文内容,并对获取的数据依次进行数据清洗、词形还原、去除停用词以及词干提取操作,得到标准待处理文档集;S2、分别逐一将标准待处理文档集每个文档中紧邻的3个句子处理为一个文档片段;S3、将所有文档片段作为根节点,并利用隐狄利克雷分布方法对所有文档片段进行主题建模,生成两个主题;S4、计算每个文档片段分别与其中某一个主题的相关度,对所有相关度进行计算和查找获得两个关键值,若文档片段的相关度大于其中较大的一个关键值则将该文档片段划分到该主题下,并将该主题及属于该主题的文档片段作为一个叶子节点;反之,若文档片段的相关度小于其中较小的关键值则将该文档片段划分到另一个主题下,并将该主题及属于该主题的文档片段作为一个叶子节点;S5、若与某一主题相关的文档片段数量大于设定阈值,则继续利用隐狄利克雷分布方法对该主题下的文档片段进行主题建模,生成两个主题,并返回步骤S4。2.根据权利要求1所述的一种生物医学文献层次主题树构建方法,其特征在于,利用隐狄利克雷分布方法生成的主题由20个主题词构成。3.根据权利要求1所述的一种生物医学文献层次主题树构建方法,其特征在于,一个文档片段与一个主题的相关度,即生成该文本片段的主题分布。4.根据权利要求1所述的一种生物医学文献层次主题树构建方法,其特征在于,计算每个文档片段分别与其中某一个主题的相关度,对所有相关度进行计算和查找获得两个关键值,根据相关度与关键值的大小关系,分别将文档片段划分到不同主题下的过程包括以下步骤:利用隐狄利克雷分布方法计算每个文档片段分别与其中某一个主题的相关度;将具有相同相关度的不同文档片段进行计数,形成全部文档片段的相关度分布,使用具有2个高斯分布的高斯混合模型曲线来分布,表示为:其中,0≤x≤1,x表示文档片段分别与其中某一个主题的相关度;α1,α2为拟合系数;表示期望为μ
k
、方差为的标准高斯分布,k∈{1,2};若(x0,y0)为高斯混合模型曲线f(x)的最低点,则设:其中,在x轴上抽取分别位于[μ1,x0]之间的点m和位于[x0,μ2]之间的点n,分别计算g(m)和g(n),如果1

min(g(m),g(n))/max(g(m),令m=x1、n=x2并计算v,即:
选取所有满足1

min(g(m),g(n))/max(g(m)的m和n继续计算v值,最终取最小v值时的m和n即为最优的关键值x1和x2;将分布在(x2,1]之间的文档片段将被划分到一个主题下,分布在[0,x1)之间的文档片段将被划分到另一主题下。5.一种生物医学文献层次主题树构建装置,其特征在于,包括数据预处理模块、文档片段划分模块、层次主题树生成模块,其中:数据预处理模块,用于对获取的生物医学文献全文内容依次进行数据清洗、词形还原、去除停用词以及词干提取操作,得到标准待处理文档集;...

【专利技术属性】
技术研发人员:林小光张矩李亚晴
申请(专利权)人:中国科学院重庆绿色智能技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1