The invention discloses a research topic detection and tracking the evolution method, this method first download a subject research literature, collating the literature metadata, literature metadata for data preprocessing by literature metadata set; then based on the references and content information extraction method of topic detection and topic topic, found the distribution of literature the topic of the word, then the extracted topic on the time axis is divided, the formation of different time periods on the sub topic; the final calculation of topic correlation and path tracking topic evolution, evolution research topic map. The invention comprehensively utilizes the text and the reference information of the literature to find the topic, and the quality of the topic is higher and more practical. The invention can realize the important scientific research topic and track the evolution of these topics with time, which is helpful for the scientific and technical personnel to grasp the evolution of the research topic and the topic.
【技术实现步骤摘要】
本专利技术涉及一种科研领域的知识发现和数据挖掘技术,特别涉及一种科研文献话题演化跟踪的方法。
技术介绍
科研文献记录重要的学术研究成果,是学术传播和学术交流的载体。科研成果具有传承性的特点,绝大多数科研成果都是在前人的研究成果的基础上持续改进而来。随着PubMed、DBLP等电子文献索引资源数据库的出现和互联网的发展,积累的科研文献的数量越来越多。面对大量涌现的科研文献,科研人员特别是科研新手们,迫切地希望能够迅速的发现自己所在研究领域的重要科研话题以及跟踪这些话题随时间演变的情况。自动的科研话题发现和演化跟踪技术能帮助研究人员快速的科研话题的发展变化情况,具有重要的实用价值和现实意义。目前国内外的话题发现模型均是从LDA话题模型发展而来[1]。LDA模型是一个关于文档-话题-词的三层模型,其最主要的假设是建立在文档的可交换性和词的可交换性基础上的,即“bagofwords”和“bagofdocuments”模型。LDA模型把语料库的文档看作是由潜在话题变量分布组成的,而话题又是由词的分布组成的,这两组分布都满足参数Dirichlet分布先验。和PLSA模型[2]相比,LDA模型是一个完全的贝叶斯模型,对于未知的文档、词汇的估计更加准确,而PLSA模型可以看作是LDA模型的一个MAP估计,且存在过拟合问题。目前对LDA模型的改进主要在三个方面:(1)考虑文档或者词之间的关系,即文档和词不再是可交换的[3-8];(2)自适应的学习话题的数量,通过引入一些非参数的贝叶斯模型[9-12];(3)除了文本以外,引入附加信息,实现有监督或者半监督的学习,提高话题发 ...
【技术保护点】
一种科研文献话题发现和演化跟踪的方法,其特征在于,包括以下步骤:A1,下载某学科领域的科研文献,整理所得文献元数据。A2,对A1中下载的文献数据进行预处理形成文献数据集S。A3,对A2整理形成的文献数据集S,利用基于引用和内容信息的话题发现方法提取话题,发现话题词的分布和话题文献的分布。A4,利用属于某一个主题的所有文档的时间信息,将提取的主题在时间轴上进行划分,形成不同时间段上的子主题。A5,利用话题之间的相关性度量方法计算话题相关性,并跟踪话题演化的路径,得到科研话题的演化图。上述步骤A3具体包括以下子步骤:A31.根据文献数据集S的文献之间的引用关系建立文献引用矩阵[M]m*m,其中m为具有引用关系的文献的数量。将矩阵M按列归一化,运用非负矩阵分解的方法将矩阵M分解为两个非负矩阵[B]m*z和[H]z*m,其中m是分解以后B矩阵的行和H矩阵的列的数量,即M=B*H。A32.对矩阵B和H分别按列归一化得到矩阵C和M。其中,矩阵C的每个元素ci,j表示每个话题(聚类)i中包含引用文档j的概率,矩阵M的每个元素mi,j表示每个引用文档i属于某一个话题(聚类)j的概率。A33.对A32步 ...
【技术特征摘要】
1.一种科研文献话题发现和演化跟踪的方法,其特征在于,包括以下步骤:A1,下载某学科领域的科研文献,整理所得文献元数据。A2,对A1中下载的文献数据进行预处理形成文献数据集S。A3,对A2整理形成的文献数据集S,利用基于引用和内容信息的话题发现方法提取话题,发现话题词的分布和话题文献的分布。A4,利用属于某一个主题的所有文档的时间信息,将提取的主题在时间轴上进行划分,形成不同时间段上的子主题。A5,利用话题之间的相关性度量方法计算话题相关性,并跟踪话题演化的路径,得到科研话题的演化图。上述步骤A3具体包括以下子步骤:A31.根据文献数据集S的文献之间的引用关系建立文献引用矩阵[M]m*m,其中m为具有引用关系的文献的数量。将矩阵M按列归一化,运用非负矩阵分解的方法将矩阵M分解为两个非负矩阵[B]m*z和[H]z*m,其中m是分解以后B矩阵的行和H矩阵的列的数量,即M=B*H。A32.对矩阵B和H分别按列归一化得到矩阵C和M。其中,矩阵C的每个元素ci,j表示每个话题(聚类)i中包含引用文档j的概率,矩阵M的每个元素mi,j表示每个引用文档i属于某一个话题(聚类)j的概率。A33.对A32步骤中生成的每个话题ci,j,利用组成该话题的文献的内容建立基于“词袋”模型的LDA概率话题模型。该LDA概率话题模型将话题考虑为词的集合,其具体的生成过程为:根据文献话题分布Ddoc_topic(;d)~θd来生成话题zd,n,再根据话题词的分布来生成文献的词,利用吉布斯采样来生成模型参数即话题词的分布和文献话题的分布θj,k,其中有θd~Dir(α)和其中α、β是Dirichlet分布的参数,所得话题模型的参数和θj,k组成话题上述步骤A4中的话题在时间轴上的分割,主要是利用属于某一个话题的文档的时间信息,将话题在不同的时间段上进行分割,形成该时间段上的子话题其中K是话题的数量,P是时间段的数量。具体的时间划分方案如下:根据划分的时间段数P、文档的起始时间t0、终止时间ts来确定每一个时间段的时间间隔的大小为(...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。