The invention discloses a method for assessing the degree of innovation of text information, text data crawling segmentation preprocessing; data preprocessing using training LDA model, realize the classification by the industry as the theme, to distinguish the text in different industries, so that the trained model file keyword model contains each industry category; according to the time sequence, construct the knowledge network from a data preprocessing in the extraction of key knowledge and technology information, and constantly update the fixed time intervals; in accordance with the data preprocessing time sequence, extracting attribute information of each article, and construct a network literature text structure, and make sure each the innovation type; analysis of patent data inside the technology and knowledge are the key words industry by using LDA model trained, comprehensive literature The attribute information structure of the network, a multi dimension index to evaluate the degree of innovation.
【技术实现步骤摘要】
一种文本信息的创新度评估方法
本专利技术涉及一种文本信息的创新度评估方法。
技术介绍
随着信息技术的不断进步与发展,使得人们可以轻易而快速的获取大量的文献来满足人们阅读与学习的需求。目前对于各种各样的文献的创新度却无法正确衡量。例如专利等的创新度,还是依靠人力来进行检索、分析,需要对人员进行专业的培训,并且人员进行检索和创新度评价的速度比较缓慢且需要不同级别的审核、补充检索,面对目前大量的文献资料,审查人员的压力较大且有可能耽误审查进度,造成授权延后,复审和无效事项较多。另外,企业在进行创新工作时,应用大数据作为分析和计划的基础,需要分辨和查看分析有价值的数据。而如何衡量一篇文献的价值,是一个非常困难的事情,之前人们经常通过人工进行阅读标记的方法,来区别和标注出来有价值,创新性好的文章。但是对于大数据来说,几百万或者上千万的文献数据,通过人工来进行分析创新性显然是不可取的,因为实现的难度非常大,而且每年都会有大量的文献出现,所以需要自动分析文章内容创新性。
技术实现思路
本专利技术为了解决上述问题,提出了一种文本信息的创新度评估方法,本专利技术根据文本分析技术实现对固 ...
【技术保护点】
一种文本信息的创新度评估方法,其特征是:包括以下步骤:(1)对爬取的文本数据进行分词预处理;(2)使用预处理数据训练LDA模型,实现以行业为主题的分类,用以把不同行业的文本进行区分,使得训练好的模型包含每个行业类别的关键词的模型文件;(3)按照时间顺序,构建一个由预处理数据里的抽取的关键知识和技术信息组成的知识网络,并且每隔固定时间不断更新;(4)使用按照时间排序的预处理数据,提取每一篇文献的时间、名称、作者、浏览量和下载量的属性信息,并构建一个文献文本结构网络,并确定各个文献的创新类型;(5)利用训练好的LDA模型分析专利数据里面的技术和知识关键词分别属于的行业,综合文献 ...
【技术特征摘要】
1.一种文本信息的创新度评估方法,其特征是:包括以下步骤:(1)对爬取的文本数据进行分词预处理;(2)使用预处理数据训练LDA模型,实现以行业为主题的分类,用以把不同行业的文本进行区分,使得训练好的模型包含每个行业类别的关键词的模型文件;(3)按照时间顺序,构建一个由预处理数据里的抽取的关键知识和技术信息组成的知识网络,并且每隔固定时间不断更新;(4)使用按照时间排序的预处理数据,提取每一篇文献的时间、名称、作者、浏览量和下载量的属性信息,并构建一个文献文本结构网络,并确定各个文献的创新类型;(5)利用训练好的LDA模型分析专利数据里面的技术和知识关键词分别属于的行业,综合文献文本结构网络的属性信息,构成多维度指标以评估创新度。2.如权利要求1所述的一种文本信息的创新度评估方法,其特征是:所述步骤(1)中,构建Keras深度学习模型,包括1层Embedding层,1层LSTM和1个Dense输出层,目标函数使用交叉熵,优化函数使用adam。3.如权利要求1所述的一种文本信息的创新度评估方法,其特征是:所述步骤(2)中,使用预处理的数据训练Word2vector模型,用以计算词与词之间的相关性,确定各个词语属于相关行业的概率。4.如权利要求1所述的一种文本信息的创新度评估方法,其特征是:所述步骤(2)中,当判断出的各个行业的所述概率进行从大到小排序,得到概率序列,取前n个概率最大的序列,计算各个概率所占的比例,删除比较小于阈值的行业。...
【专利技术属性】
技术研发人员:郭伟,张盘龙,鹿旭东,崔立真,
申请(专利权)人:山东大学,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。