一种基于科技大数据文本内容的创新性评估方法技术

技术编号：32581284 阅读：26 留言：0更新日期：2022-03-09 17:12

本发明专利技术公开了一种基于科技大数据文本内容的创新性评估方法，包括：1、科技大数据文本内容的获取、预处理及分词；2、使用TF

全部详细技术资料下载

【技术实现步骤摘要】
一种基于科技大数据文本内容的创新性评估方法

[0001]本专利技术涉及科技大数据价值评估领域，具体的说是一种基于文本内容的科技大数据创新性评估方法。

技术介绍

[0002]近些年来，随着网络及通信技术的蓬勃发展，人们在生活生产中所涉及到的数据呈爆发式增长，现代社会也已迈进大数据时代，而科技大数据是一类能够反映人类科技活动状态和过程的信息资源。它可以支持人类洞察新思想、发现新规律、专利技术新技术、开发新产品。换言之，一方面，科技大数据和其它普通数据一样，都具有价值；另一方面，基于自身的特性，科技大数据的价值以科技创新导向为主；所以说，创新性是科技大数据不可或缺的特性，也是其区别于其它数据的根本特征。
[0003]科技大数据包括科技论文、专利、软著、标准规范、政策建议等，包括大量的以文本内容数据为代表的非结构化数据，其中对科技论文与专利技术专利的价值和创新性研究较多，一方面，研究者通过建立价值评估指标体系，运用传统计量模型来刻画数据价值，但对于文本内容等非结构化数据的质量却较难以衡量；另一方面，有学者运用词频分析、共现词...

【技术保护点】

【技术特征摘要】
1.一种基于科技大数据文本内容的创新性评估方法，其特征是按如下步骤进行：步骤1、获取待评估的科技大数据的文本内容集合并进行去重去缺失的预处理后，按照文本内容的生成时间，将预处理后的文本内容进行划分，得到带有时间戳的文本内容{d1,d2,...,d
m
,...,d
M
}；d
m
表示第m篇文本内容，M表示文本内容集合中的文本篇数；步骤2、对第m篇文本内容d
m
进行分词、去停留词以及合并重复词的处理，得到分词后的第m篇文本内容第m篇文本内容表示分词后的第m篇文本内容d
′
m
中的第n个词，N
m
表示分词后的第m篇文本内容d
′
m
中的不同词的总数；从而由M篇文本内容中的所有分词构成语料库D；步骤3、使用TF
‑
IDF模型处理分词后的文本内容，提取待评估的科技大数据的关键词并构建文档词向量；步骤3.1、利用式(1)计算语料库D中分词后的第m篇文本内容d
′
m
的第n个词的TF
‑
IDF值T
nm
：式(1)中，表示分词后的第m篇文本内容d
′
m
中第n个词的词频，表示分词后的第m篇文本内容d
′
m
中第n个词在语料库D中的逆文档频率；步骤3.2、构建待评估的科技大数据的文档词向量；将所述语料库D中各篇文本内容之间的重复词进行合并，得到合并后的语料库D
′
＝{t1,t2,...,t
p
,...,t
P
}，t
p
表示第p个词；P表示所述合并后的语料库D
′
中的总词数，利用式(2)计算第p个词t
p
在分词后的第m篇文本内容d
′
m
中的重要程度X
pm
，从而得到分词后的第m篇文本内容d
′
m
的词向量进而得到时间窗M下所有文档的词向量X＝(X1,X2,...,X
...

【专利技术属性】
技术研发人员：刘业政，陈航，姜元春，钱洋，孙见山，柴一栋，王继成，袁昆，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人