【技术实现步骤摘要】
一种科技项目文本挖掘的实现方法
[0001]本专利技术属于电力系统
,具体涉及一种科技项目文本挖掘的实现方法。
技术介绍
[0002]科技评审的工作是由美国在上个世纪初率先开展起来的,历经一个世纪的发展,科技评审已经受到世界许多国家越来越多的重视。其中以美国、日本、英国、法国、德国等为代表的发达国家经过长期的评估实践,已经形成了相对稳定和比较完备的科技评审体系,具体包括科技评审机构的建设、评审结果的认定等。
[0003]目前,国家及各地政府对科技活动的大力支持直接导致了科技项目申报、立项数量的增多。聚焦国内电力行业,已有借助文本挖掘分析方法开展合同法务审批等通用方向的研究,但还未形成研究成果。随着电力改革不断深入、科学技术不断持续发展,各专业领域的科学技术研究项目立项评审越来越多,随之而来如何智能辅助立项评审,保障立项管理工作提质增效,并实现成果科学管理,已然成为困扰科技项目管理亟待解决的问题。
技术实现思路
[0004]本专利技术所要解决的技术问题在于,提供一种科技项目文本挖掘的实现方法,以使 ...
【技术保护点】
【技术特征摘要】
1.一种科技项目文本挖掘的实现方法,其特征在于,包括:步骤S1,对文本信息进行数据预处理,将文本转换为向量形式并进行特征提取;步骤S2,将提取的特征向量构建向量空间模型,并对所述向量空间模型进行降维处理;步骤S3,采用文本挖掘算法对文本进行挖掘,并对挖掘结果进行可视化表达;步骤S4,将文本表示为计算机可以计算的数值向量;步骤S5,基于所述数值向量计算文本之间的相似度。2.根据权利要求1所述的实现方法,其特征在于,所述步骤S1中,数据预处理具体包括分词处理、特征表示和特征提取。3.根据权利要求2所述的实现方法,其特征在于,所述分词处理具体包括采用基于词库的分词算法和基于无词典的分词算法,基于词库的分词算法包括正向最大匹配、正向最小匹配、逆向匹配及逐词遍历匹配法;基于无词典的分词算法是基于词频的统计,将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计,在频率超过预先设定的阈值时,就将其作为一个词进行索引。4.根据权利要求2所述的实现方法,其特征在于,所述特征表示具体是关以一定特征项来代表文档,在文本挖掘时对所述特征项进行处理,从而实现对非结构化的文本处理。5.根据权利要求2所述的实现方法,其特征在于,所述特征提取具体是构造一个评价函数对每个特征进行评估,然后把特征按分值高低排序,预定数目分数最高的特征被选取。6.根据权利要求1所述的实现方法,其特征在于,所述步骤S2中,降维处理具体是采用非负矩阵分解,将所述向量空间模型分解成两个非负、非正交的子矩阵。7.根据权利要求1所述的实现方法,其特征在于,所述步骤S4包括利用Bag
‑
of
‑
words模型将一幅图像表示成为数值向量,其具体包括:利用SIFT算法从不同类别的图像中提取视觉词汇向量,所述视觉词汇向量代表的是图像中局部不变的特征点;将所有特征点向量集合到一块,利用K
‑
Means算法合并词义相近的视觉词汇,构造一个包含K个词汇的单词表;统计单词表中每个单词在图像中出现的次数,从而将图像表示成为一个K维数值向量。8.根据权利要求1所述的实现方法,其特征在于,所述步骤S5包括:使用TextRank算法提取关键词和关键...
【专利技术属性】
技术研发人员:李重杭,艾致衡,何维,汪伟,
申请(专利权)人:深圳供电局有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。