当前位置: 首页 > 专利查询>东北大学专利>正文

一种面向学者的用户画像构建及应用方法技术

技术编号:23705063 阅读:40 留言:0更新日期:2020-04-08 11:12
本发明专利技术提供一种面向学者的用户画像构建及应用方法。首先,从国内学者的个人主页上获取学者基本信息,从国内外著名学术网站上获取学者的研究信息,在此基础上对上述信息进行预处理,从而获得构建学者画像所需的语料库;之后,通过对学者基本属性和研究属性的挖掘,构建学者画像;最后,基于学者画像,实现学者搜索与专家发现、论文审稿人推荐、合作学者推荐等应用。该发明专利技术对于学者寻找项目和论文工作的合作者、学术会议和期刊主办者寻找论文审稿人、以及刚刚从事一个新的研究领域的入门者寻找领域的资深学者,均具有支持和帮助作用。

A method of user portrait construction and application for scholars

【技术实现步骤摘要】
一种面向学者的用户画像构建及应用方法
本专利技术涉及知识管理及应用领域,主要涉及一种基于学术资源、面向学者的用户画像构建方法及基于用户画像的学术资源搜索、推荐等应用技术,具体涉及一种面向学者的用户画像构建及应用方法。
技术介绍
用户画像是基于用户的属性、兴趣、社会关系等信息构建的用户模型。作为一类特定的用户画像,学者画像将更侧重于学术方向、研究领域、发表论文、从事科研项目及与其他学者的合作关系等内容。学者画像是一个近些年才产生的概念,但其中涉及的技术,包括学术信息抽取、研究兴趣挖掘、社交网络挖掘等技术,则早已被提出和研究,并且在国内外已有成熟的学者画像构建系统,在推动学术发展等方面取得了很好的效果。在学者画像涉及的技术方面,对于信息抽取,早期的研究工作主要集中在从一些特定结构的文档中抽取信息。随着互联网的发展,很多有价值的信息都包含在相关网页中,因此越来越多的学者开始关注于从大数据量的网页中直接抽取有用信息。目前,国际上比较著名的学术资源网站DBLP,是计算机领域内以科研学者为核心的一个英文文献集成网站,它在一定程度上完成了学者的研究属本文档来自技高网...

【技术保护点】
1.一种面向学者的用户画像构建及应用方法,其特征在于,包括以下步骤:/n步骤1:构建学术资源语料库,通过对来自Web上学者数据的获取及处理,构建学术资源语料库,具体步骤如下:/n(1)获取学者基本信息,通过对目标网站的结构信息的分析,获取学者的基本信息的文本内容,所述结构信息包括URL组成规则、页面跳转规则、学者信息分布以及HTML源代码;/n(2)获取学者研究信息,通过分析学者发表的论文、论文发表的会议或期刊,以及所述学者的合作学者的信息,获取学者的更全面的研究信息;/n(3)处理学者信息并构建学者信息语料库,首先对获取的学者的基本信息和研究信息进行处理,然后根据处理得到的包含学者基本信息和...

【技术特征摘要】
1.一种面向学者的用户画像构建及应用方法,其特征在于,包括以下步骤:
步骤1:构建学术资源语料库,通过对来自Web上学者数据的获取及处理,构建学术资源语料库,具体步骤如下:
(1)获取学者基本信息,通过对目标网站的结构信息的分析,获取学者的基本信息的文本内容,所述结构信息包括URL组成规则、页面跳转规则、学者信息分布以及HTML源代码;
(2)获取学者研究信息,通过分析学者发表的论文、论文发表的会议或期刊,以及所述学者的合作学者的信息,获取学者的更全面的研究信息;
(3)处理学者信息并构建学者信息语料库,首先对获取的学者的基本信息和研究信息进行处理,然后根据处理得到的包含学者基本信息和研究信息的、统一格式的纯文本txt文件构建所述学者信息语料库;
步骤2:构建学者画像,基于步骤1构建的学者信息语料库,通过深入的分析和挖掘,获得学者画像所需信息,构建学者画像,具体步骤如下:
(1)挖掘学者基本属性,在得到的学者信息语料库的基础上,抽取学者的姓名、任职信息、职称信息及联系方式,并进行学者缺失性别的预测;
(2)挖掘学者研究属性,所述学者研究属性包括学者研究兴趣及学者之间学术关系,所述学者研究兴趣通过采用文档主题生成模型LDA,并在学者论文中挖掘相关主题作为所述学者的研究兴趣,然后通过生成词云图直观再现所述学者研究兴趣,所述学者之间学术关系包括学者之间的合作关系和相似关系,所述合作关系的学者称为合作学者,所述相似关系的学者称为相似学者,对于所述合作关系的挖掘,通过设计相关算法挖掘出所有合作学者,并计算出所有合作学者中每一位学者的合作次数,对于所述相似关系的挖掘,基于学者的研究兴趣实现所述学者的相似学者的挖掘;
(3)构建学者画像,首先通过步骤(1)得到的学者基本属性构建学者的基本属性画像,通过步骤(2)得到的学者研究属性构建学者研究属性画像,然后将所述学者基本属性与研究属性通过学者姓名关键字集成起来即可完成整个学者画像的构建,最后将所述学者的基本属性和研究属性的数据集成起来存入表中,所述表的关键字是学者的姓名,所述关键字之外的其余各部分是所述学者的除姓名之外的其他属性信息,最终构建的学者画像属性包括<学者基本属性,学者研究属性>,具体表述为<姓名与任职,联系方式,职称,性别,研究兴趣,词云图,相似学者,合作学者>;
步骤3:学者画像的应用方法,通过构建得到的学者画像实现学者检索与专家发现、论文审稿人推荐、合作学者推荐的应用,具体表述为:
(1)学者检索与专家发现,所述学者检索是指输入学者姓名作为查询关键词,在学者信息数据库中搜索与所述学者姓名相匹配的学者姓名,一旦找到匹配项则将所述学者的所有属性信息传递给前端按照网页模板进行渲染输出,所述专家发现是指将输入的研究领域作为查询关键词,分别与数据库中的每一位学者的所有研究兴趣进行匹配,如遇到匹配项则将当前学者的姓名返回;
(2)论文审稿人推荐,所述论文审稿人的推荐包括基于会议名称的推荐、基于研究领域的推荐、以及基于特定论文的推荐,所述基于会议名称的推荐是指通过输入会议名称查找参与过所述会议的审稿人和在发表过所述会议论文的作者中征集审稿人,所述基于研究领域的推荐是指对于一个新的学术会议,首先根据所述新的学术会议的征文主题,确定所述新的学术会议的研究领域,然后输入所述研究领域作为查询关键字匹配学者的研究兴趣,并且将所有匹配的学者按照发表论文的总数量降序输出,得到推荐的论文审稿人信息;所述基于特定论文的推荐是指通过遍历计算特定论文题目的特征向量在每一位学者所发表的全部论文题目中出现的次数,得到所述学者相对于所述特定论文的推荐度;
(3)合作学者推荐,所述合作学者推荐是指为学者推荐可以同学者合作撰写论文或开展研究的学者,推荐方法包括基于学者姓名的合作学者推荐、基于会议名称的合作学者推荐、基于研究领域的合作学者推荐和基于特定论文的合作学者推荐。


2.根据权利要求1所述的一种面向学者的用户画像构建及应用方法,其特征在于,所述的步骤1中的步骤(1)获取学者基本信息,通过对目标网站的结构信息的分析,获取学者的基本信息的文本内容,所述结构信息包括URL组成规则、页面跳转规则、学者信息分布以及HTML源代码,具体步骤如下:
1.1.1)输入学者目录页的网址作为初始的URL,发起网页请求;
1.1.2)接收网站的应答,并下载所述网页请求的请求网页资源;
1.1.3)对网页的HTML源码进行解析,并定位所述输入学者的主页URL链接的标签,以及所述输入学者的个人介绍信息的标签,将定位得到的学者主页URL链接存入URL列表,将定位得到的学者个人介绍信息存入txt文本;
1.1.4)从存放学者主页URL链接的URL列表里选取一个新的URL,发起网页请求,转步骤1.1.2)。


3.根据权利要求1所述的一种面向学者的用户画像构建及应用方法,其特征在于,所述的步骤1中的步骤(2)获取学者研究信息,通过分析学者发表的论文、论文发表的会议或期刊,以及所述学者的合作学者的信息,获取学者的更全面的研究信息,具体步骤如下:
1.2.1)将论文资源网站上的学者网页的URL链接加入到待爬取URL列表里;
1.2.2)从所述待爬取URL列表里中随机选取一个URL链接请求网页资源;
1.2.3)下载请求得到的网页资源中的网页,并解析所述网页;
1.2.4)分别定位并且提取学者的论文、论文发表的期刊杂志或者会议以及论文合作作者信息;
1.2.5)检查所述待爬取URL列表是否为空,若所述待爬取URL列表为空则结束,否则转至步骤1.2.2);
1.2.6)将提取的学者的论文、论文发表的期刊杂志或者会议以及论文合作作者信息存在临时数据库中,此外,合作的国外学者的论文发表的期刊杂志或者会议以及论文合作作者信息存在以json格式保存的文件中,将下载的国内外学者的论文全文以pdf形式存在数据集中。


4.根据权利要求1所述的一种面向学者的用户画像构建及应用方法,其特征在于,所述的步骤1中的步骤(3)处理学者信息并构建学者信息语料库,首先对获取的学者的基本信息和研究信息进行处理,然后根据处理得到的包含学者基本信息和研究信息的、统一格式的纯文本txt文件构建所述学者信息语料库,具体步骤如下:
1.3.1)重构学者基本信息,重构包含学者基本信息的个人简介的txt文本文件,得到包含学者基本信息的、统一格式的纯文本txt文件,具体步骤如下:
S1.1:将包含学者基本信息的个人简介的txt文本文件按照所在文件夹中的位置顺序重命名;
S1.2:设置文件和文件内容的编码格式统一为“utf-8”;
S1.3:删除文件里多余的回车、换行和制表符;
S1.4:将包含学者基本信息的个人简介的txt文本文件开头的空格删除;
1.3.2)处理学者研究信息,对所述研究信息中的下载的学者论文、论文发表信息以及合作学者信息进行处理后,得到包含研究信息的、统一格式的纯文本txt文件,具体步骤如下:
S2.1:将已下载的学者论文、论文发表信息以及合作学者信息分别存入不同的excel文件;
S2.2:解析以json格式保存的国外学者论文发表的期刊杂志或者会议以及论文合作作者信息并存入excel中;
S2.3:将国内外学者的论文全文的pdf文件解析成纯文本格式,并且存入txt文件;
1.3.3)将处理后的包含学者基本信息的、统一格式的纯文本txt文件,以及处理后的包含学者研究信息的、统一格式的纯文本txt文件作为学者信息语料库。


5.根据权利要求1所述的一种面向学者的用户画像构建及应用方法,其特征在于,所述的步骤2中的步骤(1)挖掘学者基本属性,在得到的学者信息语料库的基础上,抽取学者的姓名、任职信息、职称信息及邮箱联系方式,并进行学者缺失性别的预测,具体步骤如下:
2.1.1)抽取学者姓名和任职信息,使用字符串查找函数string.find并且以特殊字符作为判断条件,进行学者姓名和任职信息的抽取,并将抽取得到的学者姓名和任职信息分别存入不同的excel表格中;
2.1.2)抽取学者职称信息,采用基于规则的方法抽取学者职称信息,并将抽取得到的学者职称信息存入excel表格中,所述规则的制定方式为:
S2.1:直接在学者的个人介绍中搜索职称相关的词汇;
S2.2:查找范围限制在介绍内容的前ε个字节,忽略大于ε个字节之后出现的关键词汇,ε表示用于限制查找范围的字节的预设值;
S2.3:如果在所述查找范围内没有发现任何关键词汇,则为所述学者的职称设置一个缺省值;
2.1.3)抽取学者的邮箱联系方式,采用正则表达式及其相关技术抽取学者的邮箱,具体表述为:首先定义正则表达式模式,然后采用所述正则表达式re库的查找匹配函数以及分组与捕获函数完成学者邮箱的提取,所述正则表达式模式定义为:“[0-9a-zA-Z_]+@[a-zA-Z0-9.]+”、“[0-9a-zA-Z_]+[@#][a-zA-Z0-9.]+”;
2.1.4)预测学者性别,采用梯度提升树算法基于学者姓名来实现所述学者性别的预测,具体步骤如下:
S4.1:将具有性别标签的学者信息作为训练集D,并定义所述训练集总记录数为|D|;
S4.2:将所述训练集划分成男性姓名集合Dm和女性姓名集合Df两部分,并定义男性姓名在训练集中的记录数为|Dm|,女性姓名在训练集中的记录数为|Df|,因此|D|=|Dm|+|Df|;
S4.3:利用collections程序包里的Counter类分别统计Dm和Df中每个字出现的次数,并定义w1表示每个学者名字中的第一个字,|w1m|表示w1在Dm集合中出现的次数,|w1f|表示w1在Df...

【专利技术属性】
技术研发人员:王大玲陈英豪冯时张一飞
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1