一种专利技术主题内容和热度演化的分析方法技术

技术编号：25948652 阅读：46 留言：0更新日期：2020-10-17 03:40

本发明专利技术属于自然语言处理领域，具体涉及一种专利技术主题内容和热度演化的分析方法，包括以下步骤：按照专利和专利申请的申请时间，以年为单位划分专利文档集；对每个时间片的专利摘要文本分别进行分词、去停用词等预处理；设置待分析的IPC分类号层级和PLDA模型参数；使用PLDA模型进行主题挖掘，获取IPC分类下不同层级的专利技术主题信息；在不同时间片中对IPC分类号下不同层级的专利技术主题信息进行内容和研究热度的演化分析。本发明专利技术利用了IPC分类号蕴含不同层级的专利技术信息这一特点，帮助技术研究人员从更细粒度了解某领域技术的发展状况，为技术进一步的创新发展提供了坚实的基础。

全部详细技术资料下载

【技术实现步骤摘要】
一种专利技术主题内容和热度演化的分析方法
本专利技术属于自然语言处理领域，具体涉及一种专利技术主题内容和热度演化的分析方法。
技术介绍
随着中国社会经济的发展以及国际地位的逐渐提升，人们对于知识产权的保护意识愈加强烈。知识产权保护是促进技术进步的重要制度安排,它影响到一个国家的自主创新、FDI流入、国际贸易及国际技术转移等诸多方面，并最终影响到经济增长。专利是知识产权中重要的一种表现形式。随着专利数据逐年增多，人们需要对专利数据进行深入分析研究，挖掘出有价值的信息，有助于促进创新。由于目前专利数据的海量化，专利研究人员通过人力对某领域的专利文档进行阅读并提取技术信息的方法过于困难和低效，因此，在现阶段使用主题模型对专利进行深入的技术主题挖掘是至关重要的工作，如何准确且高效的对专利文本进行主题挖掘和主题演化分析，是目前研究人员需要关注的问题。隐含狄利克雷分布(LatentDirichletAllocation,LDA)是常见的主题挖掘模型，它能识别大规模文档集(documentcollection)或语料库(corpus)中潜藏的主题信息，能够有效的提取专利的技术主题。然而基于LDA模型提取专利主题的方法虽易于实现，但是由于其模型的特性，只能对某领域专利进行全局的技术主题提取，不能从细粒度进行专利技术主题的挖掘和演化分析，更不能对专利的技术主题的演化按照时段进行分析。PLDA(PartiallyLabeledDirichletAllocation)主题模型是一种针对有标记文档进行主题处理的模型，...

【技术保护点】
1.一种专利的主题内容及其热度演化的分析方法，该方法包括如下步骤：/nS1、按照专利和专利申请的申请时间，以年为单位划分专利文档集，得到不同时间片的专利文档集；/nS2、使用jieba分词工具对所述的专利文档集中的每篇文档的摘要文本进行分词，并使用哈工大提供的中文停用词表，对摘要文本进行过滤，得到处理后的摘要文本；/nS3、设置待分析的IPC分类号层级和PLDA模型参数；/n以IPC分类号的位数作为待分析的IPC层级；设置PLDA模型的超参数α＝0.1，β＝0.01；选取困惑度值最小时的迭代次数和保存迭代间隔数作为模型参数，并选取困惑度值最小时的主题数作为IPC分类号下生成的主题数目；困惑度值Perplexity(D)的计算公式如下：/n

【技术特征摘要】
1.一种专利的主题内容及其热度演化的分析方法，该方法包括如下步骤：
S1、按照专利和专利申请的申请时间，以年为单位划分专利文档集，得到不同时间片的专利文档集；
S2、使用jieba分词工具对所述的专利文档集中的每篇文档的摘要文本进行分词，并使用哈工大提供的中文停用词表，对摘要文本进行过滤，得到处理后的摘要文本；
S3、设置待分析的IPC分类号层级和PLDA模型参数；
以IPC分类号的位数作为待分析的IPC层级；设置PLDA模型的超参数α＝0.1，β＝0.01；选取困惑度值最小时的迭代次数和保存迭代间隔数作为模型参数，并选取困惑度值最小时的主题数作为IPC分类号下生成的主题数目；困惑度值Perplexity(D)的计算公式如下：

其中，表示专利文档集中所有词语之和；p(w)表示某个词语在所述的专利文档集出现的概率，其计算公式如下：
p(w)＝p(z|d)*p(w|z)(2)
其中，p(z|d)表示专利文档集中的某个文档中，某个主题出现的概率；p(w|z)表示某个词语在某个主题下出现的概率；
S4、将所述的处理后的摘要文本和IPC分类号作为PLDA模型输入，使用PLDA模型进行主题挖掘，以获取IPC分类下不同层级的专利技术主题信息：
由于专利和专利申请可能包含多个IPC分类号，所以将摘要文本和IPC分类号组成集合列表LabelDocumentList＝{{l1,l2,...,d1},{l1,l2,...,d2},...,{l1,l2,...,dm}}作为PLDA模型的数据输入，其中，d1...dm表示m个摘要文本，l1,l2...表示每个摘要文本对应的IPC分类号，即将专利文档集中的每个文档的IPC分类号都作为该文档的标签；<...

【专利技术属性】
技术研发人员：李学俊，孙玉婷，
申请(专利权)人：安徽大学，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人