The invention discloses a research hotspot analysis method based on large data of expert papers, which includes the following steps: S1, searching papers with knowledge database as data source according to keywords, and grabbing open data such as title, publication time, author and data source of papers; S2, segmentation processing according to the downloaded title of papers, deleting conjunctions, prepositions and pronouns. Some structured vocabulary, remove verbs and adjectives, retain only nouns and get hot vocabulary list; S3, delete daily words from hot vocabulary list through matching exclusion method of daily vocabulary corpus of professional papers, and get professional vocabulary list; S4, analyze the frequency of professional vocabulary list, and arrange it in descending order of word frequency, select the top 100 data to get special purpose. S5. Increase the year data. On the basis of the professional Vocabulary Vocabulary Vocabulary Vocabulary Vocabulary Vocabulary Vocabulary Vocabulary Vocabulary Vocabulary Vocabulary Vocabulary Vocabulary frequency table, according to the different years, list the vocabulary frequency sub-table, and get the focus change trend with time as
【技术实现步骤摘要】
一种基于专家论文大数据的研究热点分析方法
本专利技术涉及数据处理
,具体涉及一种基于专家论文大数据的研究热点分析方法。
技术介绍
知网本身已有搜索引擎,可以根据标题、作者、关键词等方式进行搜索,搜索的结果也可以导出,与Noteexpress等软件共享。用来分析和可视共被引网络的Java应用程序CiteSpace,可以分析科学知识的发展进程与结构关系,在知网导出标题等数据后,可以完成关键词分析和作者关系分析等科学知识谱系分析。但知网本身已有搜索引擎的缺陷是每次均要靠人工点选操作,对于数据分析来说,这种工作方式无疑是很费力的。人工点选下载数据的数量有限,通常人力成本不允许下载完全部数据,导致数据很难有一个总体和全面的分析呈现。而且,其分析功能仅限于对用户输入关键词的记忆和排序,并没有更深入的分析功能。CiteSpace还是基于人工操作的基础上,效率较低,数据的不完整还会造成分析的误差,且并不能解决专业分析问题。
技术实现思路
本专利技术的目的是针对现有技术的不足,提供了一种基于专家论文大数据的研究热点分析方法。本专利技术的目的可以通过如下技术方案实现:一种基于专家论文大数据的研究热点分析方法,所述方法包括以下步骤:S1、根据关键词,以知识数据库为数据源进行论文搜索,并抓取论文标题、发表时间、作者、数据来源这些开放性数据;S2、根据下载的论文标题,进行分词处理,删除连词、介词、代词这些结构性词汇,去除动词、形容词词性的词汇,只保留名词,得出热点词汇列表;S3、通过专业论文日常用词语料库匹配排除法,将热点词汇列表中的日常用词删除,得出专业词汇列表;S4、对专业词 ...
【技术保护点】
1.一种基于专家论文大数据的研究热点分析方法,其特征在于,所述方法包括以下步骤:S1、根据关键词,以知识数据库为数据源进行论文搜索,并抓取论文标题、发表时间、作者、数据来源这些开放性数据;S2、根据下载的论文标题,进行分词处理,删除连词、介词、代词这些结构性词汇,去除动词、形容词词性的词汇,只保留名词,得出热点词汇列表;S3、通过专业论文日常用词语料库匹配排除法,将热点词汇列表中的日常用词删除,得出专业词汇列表;S4、对专业词汇列表进行词频分析,并以词频降序排列,选取前百位数据得到专业词汇词频总表;S5、增加年份数据,在专业词汇词频总表的基础上,根据不同年份列出词频分表,得出以时间为轴线的关注点变化趋势。
【技术特征摘要】
2018.12.28 CN 20181161695731.一种基于专家论文大数据的研究热点分析方法,其特征在于,所述方法包括以下步骤:S1、根据关键词,以知识数据库为数据源进行论文搜索,并抓取论文标题、发表时间、作者、数据来源这些开放性数据;S2、根据下载的论文标题,进行分词处理,删除连词、介词、代词这些结构性词汇,去除动词、形容词词性的词汇,只保留名词,得出热点词汇列表;S3、通过专业论文日常用词语料库匹配排除法,将热点词汇列表中的日常用词删除,得出专业词汇列表;S4、对专业词汇列表进行词频分析,并以词频降序排列,选取前百位数据得到专业词汇词频总表;S5、增加年份数据,在专业词汇词频总表的基础上,根据不同年份列出词频...
【专利技术属性】
技术研发人员:黄翼,吴硕贤,
申请(专利权)人:华南理工大学,覃思建筑工程技术咨询广州有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。