当前位置: 首页 > 专利查询>浙江大学专利>正文

一种科研文献话题发现和演化跟踪的方法技术

技术编号:15200010 阅读:66 留言:0更新日期:2017-04-22 01:00
本发明专利技术公开了一种科研文献话题发现和演化跟踪的方法,该方法首先下载某一学科的科研文献,整理所得文献元数据,文献元数据进行数据预处理得到文献元数据集;然后利用基于引用和内容信息的话题发现方法提取话题,发现话题词的分布和话题文献的分布,之后将提取的话题在时间轴上进行划分,形成不同时间段上的子话题;最后计算话题相关性,并跟踪话题演化的路径,得到科研话题的演化图。本发明专利技术综合利用了文献的文本和引用信息来发现话题,获得的话题质量更高、更符合实际。本发明专利技术可以实现发现重要的科研话题和跟踪这些话题随时间的演化情况,有助于科技人员迅速把握科研话题和话题的演化脉络。

A method for topic discovery and evolution tracking of scientific literature

The invention discloses a research topic detection and tracking the evolution method, this method first download a subject research literature, collating the literature metadata, literature metadata for data preprocessing by literature metadata set; then based on the references and content information extraction method of topic detection and topic topic, found the distribution of literature the topic of the word, then the extracted topic on the time axis is divided, the formation of different time periods on the sub topic; the final calculation of topic correlation and path tracking topic evolution, evolution research topic map. The invention comprehensively utilizes the text and the reference information of the literature to find the topic, and the quality of the topic is higher and more practical. The invention can realize the important scientific research topic and track the evolution of these topics with time, which is helpful for the scientific and technical personnel to grasp the evolution of the research topic and the topic.

【技术实现步骤摘要】

本专利技术涉及一种科研领域的知识发现和数据挖掘技术,特别涉及一种科研文献话题演化跟踪的方法。
技术介绍
科研文献记录重要的学术研究成果,是学术传播和学术交流的载体。科研成果具有传承性的特点,绝大多数科研成果都是在前人的研究成果的基础上持续改进而来。随着PubMed、DBLP等电子文献索引资源数据库的出现和互联网的发展,积累的科研文献的数量越来越多。面对大量涌现的科研文献,科研人员特别是科研新手们,迫切地希望能够迅速的发现自己所在研究领域的重要科研话题以及跟踪这些话题随时间演变的情况。自动的科研话题发现和演化跟踪技术能帮助研究人员快速的科研话题的发展变化情况,具有重要的实用价值和现实意义。目前国内外的话题发现模型均是从LDA话题模型发展而来[1]。LDA模型是一个关于文档-话题-词的三层模型,其最主要的假设是建立在文档的可交换性和词的可交换性基础上的,即“bagofwords”和“bagofdocuments”模型。LDA模型把语料库的文档看作是由潜在话题变量分布组成的,而话题又是由词的分布组成的,这两组分布都满足参数Dirichlet分布先验。和PLSA模型[2]相比,LDA模型是一个完全的贝叶斯模型,对于未知的文档、词汇的估计更加准确,而PLSA模型可以看作是LDA模型的一个MAP估计,且存在过拟合问题。目前对LDA模型的改进主要在三个方面:(1)考虑文档或者词之间的关系,即文档和词不再是可交换的[3-8];(2)自适应的学习话题的数量,通过引入一些非参数的贝叶斯模型[9-12];(3)除了文本以外,引入附加信息,实现有监督或者半监督的学习,提高话题发现模型的性能[13-16]。另外一个方面,从模型的结构是否有层次和学习的方法是否有监督方面来分类,话题模型可以分为四类:1)无监督的、无层次结构的话题模型;2)无监督的、层次结构的话题模型;3)有监督的、无层次结构的话题模型;4)有监督的、层次结构的话题模型。根据话题演化中对时间的不同划分方法,现有的科研话题演化分析方法,可以分为两大类:离散时间话题演化方法、连续时间话题演化方法。离散时间话题演化方法的一般过程如下:(1)文本语料集根据其时间标签进行子集划分;(2)在每个子集上采用概率话题模型进行话题抽取;(3)根据话题之间关系的度量准则,建立子集之间话题的演化关系;(4)形成话题演化的图。根据采用的概率话题模型的不同,这类模型可分为两大类,第一类是采用贝叶斯参数模型即话题数量固定的,例如TTM(TemporalTextMining)[17],DTM(DynamicTopicModel)[18]和MTTM(MultiscaleTopicTomographyModel)[19]。第二类是采用非参数的贝叶斯模型即话题的数量是不固定的,例如TDPM(TemporalDirichletProcessMixtureModel)[20]和iDTM(infiniteDynamicTopicModel)[21]等。离散时间话题演化模型需要对文档集进行时间划分,这种人为的划分实际上是很难做到科学准确的,因为不同类型的文档其划分方法可能就是不同的,这往往会对最终的话题演化的结果也带来影响。针对这一问题,有些学者提出了一种新的话题演化研究方法,即在话题演化研究中,将时间因子在话题建模的时候就考虑进去,即把时间当作一个变量,在话题建模的时候就考虑时间因子的作用,其得到的话题是关于词和时间的分布。该类话题演化模型主要有TopicsOverTime(TOT)[22],continuoustimeDynamicTopicModel(cDTM)[23],TrendAnalysisModel(TAM)[24]和non-parametricTopicsOverTime(npTOT)[25]等。现有的科研话题发现模型绝大多数没有充分利用科研文献信息中的多源结构性的信息(例如文献的内容、引用、作者和来源期刊等)来发现科研话题。针对这一问题,本专利技术的方法同时利用科研文献中的引用信息和内容信息来发现科研话题,取得了比现有单纯利用某一种类型信息来发现科研话题的方法更好的效果。而现有的话题演化模型所得的话题演化分析大都是针对同一话题的在不同时间段的演化情况,而针对不同话题之间的在不同时间段上演化情况的分析现有的技术却涉及较少。针对这一问题,本专利技术解决了跟踪某一领域内的不同科研话题随时间演化的问题;另外一个与现有技术不同之处在于,本专利技术的话题演化分析是先提取话题,再对话题进行分割,避免了先离散化再话题提取所带来的话题对齐的难题。以科研文献为研究对象,发现重要的科研话题并跟踪科研话题的演化在科研文献知识发现和数据挖掘领域具有非常重要的意义,对帮助科研工作者开展科研工作和促进科研的发展也具有重要的作用。
技术实现思路
本专利技术的目的是克服现有的科研话题发现和演化跟踪技术的不足,提供了一种科研话题发现和演化跟踪的方法。该方法综合利用了科研文献中的引用和内容信息来发现科研话题,并跟踪不同科研话题之间的演化情况,取得了比现有方法更好的话题检测效果,实现了跟踪不同科研话题之间演化路径的目标。为了解决上述技术问题,本专利技术提供了一种科研文献话题发现和演化跟踪的方法,所述方法包括以下步骤:A1.下载某一学科的科研文献,整理所得文献元数据;A2.对文献数据进行预处理形成文献数据集;A3.利用基于引用和内容信息的话题发现方法提取话题,发现话题词的分布和话题文献的分布;A4.在时间轴上分割发现的话题,形成不同时间段上的子话题;A5.度量子话题之间的相关性并跟踪话题演化的路径。上述步骤A1中每篇文献整理得到的元数据包括:文献的ID号(文献ID号是按文献的发表时间顺序排序的)、文献的发表时间、文献的内容和文献的引用关系矩阵。上述步骤A2中的文献数据预处理包括:去除停止词、数字、非英文字符,单词的词干化,去除在所有文献中出现次数少于5次的低频词,构建数据集的文档词频矩阵,构建词汇表,构建文档的引用关系矩阵。上述步骤A3具体包括:A31.根据数据集的文献之间的引用关系建立文献引用矩阵[M]m*m,其中m为具有引用关系的文献的数量。将矩阵M按列归一化,运用非负矩阵分解的方法将矩阵M分解为两个非负矩阵[B]m*z和[H]z*m,即M=B*H。A32.对矩阵B和H分别按列归一化得到矩阵C和M。其中,矩阵C的每个元素ci,j表示每个话题(聚类)i中包含引用文档j的概率,矩阵M的每个元素mi,j表示每个引用文档i属于某一个话题(聚类)j的概率。A33.对A32步骤中生成的每个话题ci,j,利用组成该话题的文献的内容建立基于“词袋”模型的LDA概率话题模型。该LDA概率话题模型将话题考虑为词的集合,其具体的生成过程为:根据文献话题分布Ddoc_topic(;d)~θd来生成话题zd,n,再根据话题词的分布来生成文献的词,利用吉布斯采样来生成模型参数即话题词的分布和文献话题的分布θj,k,其中有θd~Dir(α)和所得话题模型的参数和θj,k组成话题上述步骤A4中的话题在时间轴上的分割,主要是利用属于某一个话题的文档的时间信息,将话题在不同的时间段上进行分割,形成该时间段上的子话题具体的时间划分方案如下:根据划分的时间段数P、文档的起始时间本文档来自技高网
...

【技术保护点】
一种科研文献话题发现和演化跟踪的方法,其特征在于,包括以下步骤:A1,下载某学科领域的科研文献,整理所得文献元数据。A2,对A1中下载的文献数据进行预处理形成文献数据集S。A3,对A2整理形成的文献数据集S,利用基于引用和内容信息的话题发现方法提取话题,发现话题词的分布和话题文献的分布。A4,利用属于某一个主题的所有文档的时间信息,将提取的主题在时间轴上进行划分,形成不同时间段上的子主题。A5,利用话题之间的相关性度量方法计算话题相关性,并跟踪话题演化的路径,得到科研话题的演化图。上述步骤A3具体包括以下子步骤:A31.根据文献数据集S的文献之间的引用关系建立文献引用矩阵[M]m*m,其中m为具有引用关系的文献的数量。将矩阵M按列归一化,运用非负矩阵分解的方法将矩阵M分解为两个非负矩阵[B]m*z和[H]z*m,其中m是分解以后B矩阵的行和H矩阵的列的数量,即M=B*H。A32.对矩阵B和H分别按列归一化得到矩阵C和M。其中,矩阵C的每个元素ci,j表示每个话题(聚类)i中包含引用文档j的概率,矩阵M的每个元素mi,j表示每个引用文档i属于某一个话题(聚类)j的概率。A33.对A32步骤中生成的每个话题ci,j,利用组成该话题的文献的内容建立基于“词袋”模型的LDA概率话题模型。该LDA概率话题模型将话题考虑为词的集合,其具体的生成过程为:根据文献话题分布Ddoc_topic(;d)~θd来生成话题zd,n,再根据话题词的分布来生成文献的词,利用吉布斯采样来生成模型参数即话题词的分布和文献话题的分布θj,k,其中有θd~Dir(α)和其中α、β是Dirichlet分布的参数,所得话题模型的参数和θj,k组成话题上述步骤A4中的话题在时间轴上的分割,主要是利用属于某一个话题的文档的时间信息,将话题在不同的时间段上进行分割,形成该时间段上的子话题其中K是话题的数量,P是时间段的数量。具体的时间划分方案如下:根据划分的时间段数P、文档的起始时间t0、终止时间ts来确定每一个时间段的时间间隔的大小为(ts‑t0)/P。上述步骤A5中的话题演化分析具体包括:A51.对任意相邻的两个时间间隔上的两个话题zi和zj利用每个话题的词的分布和每个话题的核心论文的分布来计算两个话题的关系;A52.对相邻时间段上的任意的两个话题按照A51所示步骤求解相关性度量,为度量值大于一定门限值的两个话题建立有向边,边的方向按照话题之间的时间关系来确定,以此来构建话题之间的演化关系图。...

【技术特征摘要】
1.一种科研文献话题发现和演化跟踪的方法,其特征在于,包括以下步骤:A1,下载某学科领域的科研文献,整理所得文献元数据。A2,对A1中下载的文献数据进行预处理形成文献数据集S。A3,对A2整理形成的文献数据集S,利用基于引用和内容信息的话题发现方法提取话题,发现话题词的分布和话题文献的分布。A4,利用属于某一个主题的所有文档的时间信息,将提取的主题在时间轴上进行划分,形成不同时间段上的子主题。A5,利用话题之间的相关性度量方法计算话题相关性,并跟踪话题演化的路径,得到科研话题的演化图。上述步骤A3具体包括以下子步骤:A31.根据文献数据集S的文献之间的引用关系建立文献引用矩阵[M]m*m,其中m为具有引用关系的文献的数量。将矩阵M按列归一化,运用非负矩阵分解的方法将矩阵M分解为两个非负矩阵[B]m*z和[H]z*m,其中m是分解以后B矩阵的行和H矩阵的列的数量,即M=B*H。A32.对矩阵B和H分别按列归一化得到矩阵C和M。其中,矩阵C的每个元素ci,j表示每个话题(聚类)i中包含引用文档j的概率,矩阵M的每个元素mi,j表示每个引用文档i属于某一个话题(聚类)j的概率。A33.对A32步骤中生成的每个话题ci,j,利用组成该话题的文献的内容建立基于“词袋”模型的LDA概率话题模型。该LDA概率话题模型将话题考虑为词的集合,其具体的生成过程为:根据文献话题分布Ddoc_topic(;d)~θd来生成话题zd,n,再根据话题词的分布来生成文献的词,利用吉布斯采样来生成模型参数即话题词的分布和文献话题的分布θj,k,其中有θd~Dir(α)和其中α、β是Dirichlet分布的参数,所得话题模型的参数和θj,k组成话题上述步骤A4中的话题在时间轴上的分割,主要是利用属于某一个话题的文档的时间信息,将话题在不同的时间段上进行分割,形成该时间段上的子话题其中K是话题的数量,P是时间段的数量。具体的时间划分方案如下:根据划分的时间段数P、文档的起始时间t0、终止时间ts来确定每一个时间段的时间间隔的大小为(...

【专利技术属性】
技术研发人员:周厚奎于慧敏
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1