【技术实现步骤摘要】
一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
[0001]本专利技术属于电力系统
,具体涉及一种基于文本挖掘的科技项目立项管理辅助决策方法及系统。
技术介绍
[0002]经过文献调研发现,国外没有项目相似度评估或查重的概念,但在大数据挖掘分析方面的研究起步早,进行了大量的研究探索,积累了丰富的经验和成熟的技术;科技项目相似度评估或查重本质上就是文本相似度计算方法,涉及关键信息抽取技术、分词技术、文本相似度计算技术等,科技项目相似度评估或查重受到这些技术发展的影响。
[0003]国外很多学者在文本相似度计算方面进行大量的研究并取得了很多成果。大致可分为两个阶段:第一个阶段主要是以向量计算以及语义计算的方法;第二个阶段则是近年来随着深度学习技术的成熟,越来越多的学者开始研究基于自学习的方式方法计算文本相似度。
[0004]国内在文本挖掘方法研究方面起步晚,但有针对性地开展文本挖掘方法在科技项目管理中的应用研究。姜韶华提出一种基于文本挖掘的科研项目管理原型系统,重点研究和解决科研项目文本的切分和特征建 ...
【技术保护点】
【技术特征摘要】
1.一种基于文本挖掘的科技项目立项管理辅助决策方法,其特征在于,包括:步骤S1,使用信息抽取技术对待评审科技项目数据库、历史科技项目数据库分别进行特征数据抽取,构建科技项目信息数据库;步骤S2,对所述特征数据进行分层文本相似度性挖掘,构建多层次多维度的科技项目相似度比对模型;步骤S3,获得待评审项目与其他项目在所述特征数据的相似度分数,在历史样本训练集上采用网格搜索方法对所述特征数据的权重进行更新迭代,得到一组最优权重;步骤S4,根据所述最优权重计算待评审项目与其他项目之间的相似度的综合得分。2.根据权利要求1所述的方法,其特征在于,所述特征数据包括标题、关键词、项目摘要、目的与意义、研究背景、主要研究内容、预期目标。3.根据权利要求2所述的方法,其特征在于,所述步骤S1具体包括:从待评审科技项目数据库、历史科技项目数据库中分别抽取出标题、关键词、项目摘要、目的与意义、研究背景、主要研究内容、预期目标这7种特征数据;对抽取出的特征数据进行清洗,去除无用字符,并进行统一格式处理;采用jieba分词+电力行业词典+停用词过滤的组合进行分词操作;抽取关键词,所述关键词包括研究对象关键词、标题关键词、主题关键词和综合关键词。4.根据权利要求3所述的方法,其特征在于,所述抽取关键词进一步包括:采用文本主题网络图聚类来提取关键词,选取前n个关键词,如果该关键词存在于历史的研究对象关键词中,则将其作为待评审项目的研究对象关键词,否则选择综合特征值最大的前两个词语作为待评审项目研究对象关键词;采用textrank方法对待评审项目中的关键词进行提取,所述关键词的词性是普通名词、专业名词、机构团体、组织名、作品名的其中一个;采用人工标注的方式对历史科技项目进行分类,并使用svm模型进行多标签分类训练,进而获得待评审项目主题关键词的分类;将使用textrank和主题网络图聚类提取的关键词进行1:1的合并,获得综合关键词,用于后续的关键词相似度比对。5.根据权利要求1所述的方法,其特征在于,所述步骤S2包括采用改进的基于编辑距离的相似度计算方法来计算项目名称的相似度,其具体包括:步骤S21,假设有字符串s1和s2,设输入的字符串为s
1i
和s
2j
,利用算法求出输入的两个字符串最长公共子串,结果为l
s
;步骤S22,假如l
s
的长度大于2,那么对s
1i
和s
2j
做如下处理:去掉l
s
,并且当l
s
在字符串首或者尾部时,把字符串分割成两部分独立的字符串,分别为s
1i1
、s
1i2
和s
2j1
、s
2j2
;否则的话把s
1i
按顺序并入到初始为空的结果字符串s
a
中,把s
2j
按顺序并入到结果字符串s
b
中;步骤S23,遍历s
1i
和s
2j
分割后的字符串,继续递归进入步骤S21,直达完成所有子字符串的计算;此时所有的最长公共子串已从s1和s2中移除,结果存放在s
a
和s
b
中;步骤S24,对s
a
和s
b
计算编辑距离,利用编辑距离相似度计算公式进行相似度计算:
其中,sim(s1,s2)表示s1和s2的相似度,ED表示编辑距离,len(s1)表示字符串s1的长度。6.根据权利要求1所述的方法,其特征在于,所述步骤S2包括采用深度学习中的Doc2vec模型得到长文本向量,并用以计算长文本相似度;所述计算长文本相似度包括计算长文本关键词级别、句子级别和段落级别的相似度。7.根据权利要求6所述的方法,其特征在于,计算长文本关键词级别具体包括:通过文本主题网络图聚类方法提取长文本关键词w1,w2,......w
n
,利用训练的word2vec模型进行词嵌入映射,得到每个词对应的词嵌入向量w
n
=(x1,x2,......x
m
),n为第n个词语,m表示第m个特征,进而使用余弦相似度计算w1=(x1,x2,......x
m
),w2=(y1,y2,......y
m
)之间的相关性:对于两段长文本的关键词D1=(w
...
【专利技术属性】
技术研发人员:李重杭,何维,汪伟,艾致衡,
申请(专利权)人:深圳供电局有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。