【技术实现步骤摘要】
一种生物医学文献层次主题树构建方法及装置
[0001]本专利技术涉及生物医学文献内容检索、文本分类等
,特别涉及一种生物医学文献层次主题树构建方法及装置。
技术介绍
[0002]主题建模方法通过对文本数据进行主题挖掘,可以获得文本主题信息和“文档——主题”分布,并可以此为基础进一步开展信息检索、文本分类、推荐系统等大量处理任务。现有层次主题树构建方法通过构建树状主题层次结构,能够获取主题之间的关系,目前主要包括以hLDA(hierarchical Latent Dirichlet Allocation,层次隐狄利克雷分布)为代表的基于LDA(Latent Dirichlet Allocation,隐狄利克雷分布)的层次主题模型,和以HLTA(Hierarchical Latent Tree Analysis,层次潜在树分析)为代表的潜在主题树两大类方法。这两大类方法都是概率生成式方法,在主题树生成过程中,会有相当多的潜在变量需要处理,时间和空间复杂度都相当高,处理海量生物医学文献全文数据这一类大文本集时很难在有限的时间内生成一棵完整的主题树。
[0003]生物医学文献是目前最重要的生物医学领域文本内容信息资源,随着生物医学领域科学研究的迅速发展,生物医学文献的数量也不断增加,比如Medline每天新增2000到4000篇生物医学文献。如何充分挖掘这些海量文本信息,从中发现新的医学知识,对生命科学相关研究领域有着非常重要的意义。通过对海量生物医学文献全文内容构建层次主题树,可以此为基础进一步开展主题分析、 ...
【技术保护点】
【技术特征摘要】
1.一种生物医学文献层次主题树构建方法,其特征在于,具体包括以下步骤:S1、获取待处理的生物医学文献全文内容,并对获取的数据依次进行数据清洗、词形还原、去除停用词以及词干提取操作,得到标准待处理文档集;S2、分别逐一将标准待处理文档集每个文档中紧邻的3个句子处理为一个文档片段;S3、将所有文档片段作为根节点,并利用隐狄利克雷分布方法对所有文档片段进行主题建模,生成两个主题;S4、计算每个文档片段分别与其中某一个主题的相关度,对所有相关度进行计算和查找获得两个关键值,若文档片段的相关度大于其中较大的一个关键值则将该文档片段划分到该主题下,并将该主题及属于该主题的文档片段作为一个叶子节点;反之,若文档片段的相关度小于其中较小的关键值则将该文档片段划分到另一个主题下,并将该主题及属于该主题的文档片段作为一个叶子节点;S5、若与某一主题相关的文档片段数量大于设定阈值,则继续利用隐狄利克雷分布方法对该主题下的文档片段进行主题建模,生成两个主题,并返回步骤S4。2.根据权利要求1所述的一种生物医学文献层次主题树构建方法,其特征在于,利用隐狄利克雷分布方法生成的主题由20个主题词构成。3.根据权利要求1所述的一种生物医学文献层次主题树构建方法,其特征在于,一个文档片段与一个主题的相关度,即生成该文本片段的主题分布。4.根据权利要求1所述的一种生物医学文献层次主题树构建方法,其特征在于,计算每个文档片段分别与其中某一个主题的相关度,对所有相关度进行计算和查找获得两个关键值,根据相关度与关键值的大小关系,分别将文档片段划分到不同主题下的过程包括以下步骤:利用隐狄利克雷分布方法计算每个文档片段分别与其中某一个主题的相关度;将具有相同相关度的不同文档片段进行计数,形成全部文档片段的相关度分布,使用具有2个高斯分布的高斯混合模型曲线来分布,表示为:其中,0≤x≤1,x表示文档片段分别与其中某一个主题的相关度;α1,α2为拟合系数;表示期望为μ
k
、方差为的标准高斯分布,k∈{1,2};若(x0,y0)为高斯混合模型曲线f(x)的最低点,则设:其中,在x轴上抽取分别位于[μ1,x0]之间的点m和位于[x0,μ2]之间的点n,分别计算g(m)和g(n),如果1
‑
min(g(m),g(n))/max(g(m),令m=x1、n=x2并计算v,即:
选取所有满足1
‑
min(g(m),g(n))/max(g(m)的m和n继续计算v值,最终取最小v值时的m和n即为最优的关键值x1和x2;将分布在(x2,1]之间的文档片段将被划分到一个主题下,分布在[0,x1)之间的文档片段将被划分到另一主题下。5.一种生物医学文献层次主题树构建装置,其特征在于,包括数据预处理模块、文档片段划分模块、层次主题树生成模块,其中:数据预处理模块,用于对获取的生物医学文献全文内容依次进行数据清洗、词形还原、去除停用词以及词干提取操作,得到标准待处理文档集;...
【专利技术属性】
技术研发人员:林小光,张矩,李亚晴,
申请(专利权)人:中国科学院重庆绿色智能技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。