面向知识产权的科技资源画像构建方法、装置和存储介质制造方法及图纸

技术编号:29673407 阅读:17 留言:0更新日期:2021-08-13 21:55
本发明专利技术提供一种面向知识产权的科技资源画像构建方法、装置和存储介质,所述方法包括:获取结构化的知识产权科技资源数据;对获得的知识产权科技资源数据进行数据预处理,得到专利文本特征数据;基于专利文本特征数据得到分词向量和字符向量,将其作为原始输入文本输入双向长短时循环网络模型,并将其输出向量进一步输入至与分词词性注意力模型相结合的字符级别的注意力模型,以得到知识产权科技资源数据的实体识别结果;利用结构化的知识产权科技资源数据和实体识别结果构建实体间关系;基于得到的实体识别结果和实体间的关系,利用数据统计进行知识产权科技资源数据知识图谱的构建,并基于构建的知识图谱得到面向知识产权的科技资源画像。

【技术实现步骤摘要】
面向知识产权的科技资源画像构建方法、装置和存储介质
本专利技术涉及自然语言处理
和知识图谱
,具体是一种面向知识产权的科技资源画像构建方法、装置和存储介质。
技术介绍
近年来,越来越多的学者注意到科技资源信息的重要性。一些研究者从海量的科技资源数据中抽取实体属性和关系,从而实现科技资源中的用户画像(如企业画像)。科技资源画像是对科技信息进行标签化的过程,通过对科技资源数据进行收集与分析,构建出对科技资源的多个角度标签化的描述,综合科技资源所有的标签,勾勒出对科技资源的画像。欧洲科学家采用系统Euro-CRIS构建了统一的描述模型CERIF,来构建多类科技资源的画像。科技资源画像构建方法主要有基于本体(如主体本体或领域本体等)或概念的构建方法、基于主题或话题的构建方法、基于用户兴趣或偏好的构建方法、基于语义挖掘的构建方法等。这些方法虽然能够对科技资源进行画像,但是由于受到外部因素质量的影响和限制,也并没有在构建画像中得到满意的改进。目前有几大科技资源服务系统可以为用户提供较为全面的服务,例如谷歌学术搜索(GoogleSchol本文档来自技高网...

【技术保护点】
1.一种面向知识产权的科技资源画像构建方法,其特征在于,该方法包括以下步骤:/n获取结构化的知识产权科技资源数据,所述知识产权科技资源数据包括专利数据;/n对获得的知识产权科技资源数据进行数据预处理,得到专利文本特征数据,所述数据预处理包括分词处理;/n基于专利文本特征数据得到分词向量和字符向量,将分词向量和字符向量作为原始输入文本输入双向长短时循环网络BLSTM模型,并将其隐藏层的输出向量进一步输入至与分词词性注意力模型相结合的字符级别的注意力模型,以得到知识产权科技资源数据的实体识别结果;/n利用所述结构化的知识产权科技资源数据和实体识别结果构建实体间关系;/n基于得到的实体识别结果和实体...

【技术特征摘要】
1.一种面向知识产权的科技资源画像构建方法,其特征在于,该方法包括以下步骤:
获取结构化的知识产权科技资源数据,所述知识产权科技资源数据包括专利数据;
对获得的知识产权科技资源数据进行数据预处理,得到专利文本特征数据,所述数据预处理包括分词处理;
基于专利文本特征数据得到分词向量和字符向量,将分词向量和字符向量作为原始输入文本输入双向长短时循环网络BLSTM模型,并将其隐藏层的输出向量进一步输入至与分词词性注意力模型相结合的字符级别的注意力模型,以得到知识产权科技资源数据的实体识别结果;
利用所述结构化的知识产权科技资源数据和实体识别结果构建实体间关系;
基于得到的实体识别结果和实体间的关系,利用数据统计进行知识产权科技资源数据知识图谱的构建,并基于构建的知识图谱得到面向知识产权的科技资源画像。


2.根据权利要求1所述的方法,其特征在于,
所述获取结构化的知识产权科技资源数据的步骤包括:利用爬虫技术从web页面中提取结构化的知识产权科技资源数据,所述知识产权科技资源数据包括单位专利数据和个人专利数据;
所述对获得的知识产权科技资源数据进行数据预处理,得到专利文本特征数据包括:
去掉无用数据,所述无用数据包括以下信息中的至少一种:停用词、标点和内容短于预定长度的数据;
去除重复专利数据;
将得到的专利数据进行分词处理;
针对分词处理后获得的分词生成唯一化标识,并进行词性标注,从而形成专利文本特征数据。


3.根据权利要求2所述的方法,其特征在于,将得到的专利数据进行分词处理之前,所述对获得的知识产权科技资源数据进行数据预处理还包括:将繁体的专利文本数据转换为简体专利文本数据;
所述将得到的专利数据进行分词处理包括利用jieba分词得到文本分词。


4.根据权利要求1所述的方法,其特征在于,所述将其输出向量进一步输入至与分词词性注意力模型相结合的字符级别的注意力模型,以得到知识产权科技资源数据的实体识别结果,包括:
将所述双向长短时循环网络模型的输出向量矩阵作为分词词性注意力模型的值项特征矩阵;
将原始输入文本对应的分词词性特征矩阵向量作为键值特征矩阵;
将BLSTM隐藏层输出向量的一个列向量作为查询项特征矩阵;
将所述值项特征矩阵、键值特征矩阵和查询项特征矩阵输入所述字符级别的注意力模型得到注意力相关输出值;
将...

【专利技术属性】
技术研发人员:杜军平杨佳鑫邵蓥侠李昂徐欣
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1