一种结合标签构建与社区关系规避的专家推荐方法技术

技术编号:23787315 阅读:18 留言:0更新日期:2020-04-15 00:36
本发明专利技术公开了一种结合标签构建与社区关系规避的专家推荐方法,对科技领域的专利数据库和论文数据库进行采集,提取出论文数据库中的作者以及专利数据库中的发明专利技术人形成专家列表。然后对专家的属性信息补全,根据属性信息完成专家属性抽取和领域标签抽取,根据专家之间的关系形成科技领域的专家库。然后根据专家的领域标签过滤匹配度高的专家集合S1,得到需要规避的专家集合S2,得到初步推荐的专家,即S=S1‑S2,并按照相关领域影响力排序得到最终的专家推荐列表。本发明专利技术合理的进行专家规避,根据专家的领域标签以及影响力推荐高水平、高影响力、高责任心的专家。有效的提高了专家挑选的工作效率,同时提高了科技评价或评审的科学性、公正性、独立性以及客观性。

An expert recommendation method combining label construction and community relationship avoidance

【技术实现步骤摘要】
一种结合标签构建与社区关系规避的专家推荐方法
本专利技术属于数据挖掘
,具体涉及一种结合标签构建与社区关系规避的专家推荐方法。
技术介绍
专家是科技评价或评审工作的主体,专家库中所选取的专家的个人素养及学术水平直接关系到科技评价或评审活动的质量,并最终影响科技咨询与决策工作的质量与科学性。因此,建设科学的专家库以及挑选合适的专家进行科技评价或评审至关重要。然而,目前我国存在专家库信息不完整、更新不及时等问题。同时在评审专家挑选时存在效率低以及违规等问题,主要表现在以下两个方面。(1)目前专家库中的专家主要来源于高等院校、科研院、各类科技政府机构所等机构,数据信息主要是由这些机构中的专家个人填写,极大地影响了专家数据库中专家信息的完整性、可靠性、及时性。从而导致专家数据库中专家信息尤其是学术研究信息的片面性、滞后性,无法准确反映专家实际工作情况。(2)目前在专家挑选时主要凭借直觉、印象、资历、名气、地位等“软”因素进行主观判断。存在未严格遵循项目回避、单位回避、特别要求的回避等原则,从专家库中抽取专家;缺乏选择高水平、高责任心、无利益冲突的评审专家的科学依据。这不仅大大降低挑选专家的工作效率,还容易存在覆盖面不全、人工干预多、专家学者对科技咨询内容了解程度不一致等问题;在实际评审工作中,也频繁地出现由于人际关系网或个人名人效应造成的领导项目、人情项目、照顾平衡项目等不良现象。这一切都严重影响了科技评价或评审的科学性、公正性、独立性以及客观性。
技术实现思路
本专利技术针对目前科技评价或者评审工作时挑选专家存在的问题,提出了一种结合标签构建与社区关系规避的专家推荐方法。用以提高科技评价或评审时专家挑选的工作效率;提高科技评价或评审的科学性、公正性、独立性以及客观性。为实现上述目的,本专利技术采用的技术方案为:一种结合标签构建与社区关系规避的专家推荐方法,包括以下步骤。步骤1:对科技领域的专利数据库和论文数据库进行采集,提取出论文数据库中的作者以及专利数据库中的专利技术人,形成专家列表。然后对专家的属性信息补全,根据属性信息完成专家属性抽取和领域标签抽取。根据专家之间的关系形成科技领域的专家库。最后根据专家发表的论文数、论文影响因子、论文被引数、H指数和专利数等维度进行建模,计算专家在相关领域的影响力。步骤2:根据科技评审资料提取相关的科技领域,然后根据专家的领域标签过滤匹配度高的专家集合S1。同时提取科技评审资料中相关的申请人信息,作为需要直接规避的专家。然后根据社区发现算法以及专家之间的复杂关系,得到专家的社区关系。根据需要直接规避的专家及其关系比较紧密的专家社区关系,得到需要规避的专家集合S2。然后将推荐的专家集合S1中过滤掉需要规避的专家集合S2得到初步推荐的专家,即S=S1-S2。步骤3:得到初步推荐专家后按照影响力与其他限制条件进行二次过滤,并按照相关领域影响力排序得到最终的专家推荐列表。需要规避的专家集合S2的算法执行过程如下。(1)给定网络G(V,E),其中V为点集,E为边集,将网络G中的每条边初始一个社区,即P0=(C1,C2,…,C|E|)。(2)找出最相似的属于不同社区的两条边eik和ejk,并将这两条边所属的社区进行合并。其中相似度按照如下公式计算:其中n+(i)={x|d(i,j)≤1},d(i,j)表示节点i和x之间的最小距离。即n+(i)包含了节点i本身和i的邻居节点。(3)重复执行(2)直到网络中所有的边被分到一个社区中。在此过程中,将每次迭代的结果存储在一个树状图中。(4)在(3)得到的树状图中找出划分密度(partitiondensity)最大的那层社区划分结果作为最终社区结构。其中划分密度D定义为:其中mc和nc分别表示社区c包含边的条数和节点的个数。(5)将单链接层次聚类的结果转化为节点的集合,形成最终的专家的社区关系结构。(6)根据需要直接规避的专家及其关系比较紧密的专家社区关系,得到需要规避的专家集合S2。步骤1中专家领域标签抽取过程如下。(1)根据领域标签内容,对采集论文的分类进行匹配,并对采集的论文信息进行检索,根据匹配的论文数据建立领域标签论文集合,形成全部论文领域标签数据集,作为训练样本。(2)使用FastText算法对数据进行训练,形成全领域标签分类模型。(3)基于上述步骤训练好的模型,对于专家的论文进行预测打分,形成专家的领域标签,一个专家可以命中多个标签,涉及多个不同的领域。步骤1中构建专家库是指完成科技领域专家库的构建。需要根据专家的论文专利合作关系、同事关系和校友关系等复杂的人际关系,对专家关系进行连接。其中专家之间共同发表论文或者专利则形成合作关系;专家所属机构相同则形成同事关系;专家的教育背景存在时间与地点吻合度较高的则形成校友关系。权5:步骤1中还包括专家评估:根据专家发表的论文数、论文影响因子、论文被引数、H指数和专利数等维度进行建模,计算专家在相关领域的影响力。其中过程如下。(1)对专家数据清洗与转换,对论文数、论文影响因子、论文被引数、H指数、专利数等维度缺失数据进行处理。由于数据各个维度之间的数值往往相差很大,因此有必要对整体数据进行归一化处理,也就是将它们都映射到一个指定的数值区间,这样就不会对后续的数据分析产生重大影响。(2)建立数学模型,计算专家领域影响力。其中X表示专家在某领域的论文数x1、论文影响因子x2、论文被引数x3、H指数x4和专利数xn等维度指标组成的向量集,T表示不同维度的加权集,则数学模型Y=TX计算得到某领域的影响力。其中:数学模型Y=t1*x1=t2*x2+...+tn*xn。权6:步骤3中获得最终专家推荐列表的具体步骤如下。(1)得到初步推荐专家后,根据专家影响力将相关领域影响力较弱的专家进行过滤。同时也可以根据用户指定的条件进行二次过滤。(2)在步骤(1)中根据专家评估模型计算出了专家在相关领域的影响力,此时根据领域影响力进行排序,将影响力高的排序到推荐专家列表前列。(3)经过一系列分析之后,得到最终的专家推荐列表。在合理规避有合作关系、同事关系、项目组关系等关系转件后,推荐高水平、高影响力和高责任心的专家。本申请的技术效果:本专利技术结合专家之间的同事关系、合作关系、校友关系等等复杂关系,合理的进行专家规避,根据专家的领域标签以及影响力推荐高水平、高影响力、高责任心的专家。有效的提高了专家挑选的工作效率,同时提高了科技评价或评审的科学性、公正性、独立性以及客观性。相对于目前我国科技领域的信息管理技术相对落后,严重影响科技评审、专家评价的公正性、客观性、科学性,信息获取具有滞后性、片面性。本专利技术专家库的建设以及推荐服务以解决科技领域的信息服务问题为目标,为各级政府、科研院所、企业等提供更加及时、有效、全面、准确、可定制的信息服务,可节省在进行项目评审、科技评价等日常工作的人力成本和时间成本。相对于目前本文档来自技高网...

【技术保护点】
1.一种结合标签构建与社区关系规避的专家推荐方法,其特征在于,包括以下步骤:/n步骤1:对科技领域的专利数据库和论文数据库进行采集,提取出论文数据库中的作者以及专利数据库中的专利技术人,形成专家列表;然后对专家的属性信息补全,根据属性信息完成专家属性抽取和领域标签抽取;根据专家之间的关系形成科技领域的专家库;最后根据专家发表的论文数、论文影响因子、论文被引数、H指数和专利数维度进行建模,计算专家在相关领域的影响力;/n步骤2:根据科技评审资料提取相关的科技领域,然后根据专家的领域标签过滤匹配度高的专家集合S1;同时提取科技评审资料中相关的申请人信息,作为需要直接规避的专家;然后根据社区发现算法以及专家之间的复杂关系,得到专家的社区关系;根据需要直接规避的专家及其关系比较紧密的专家社区关系,得到需要规避的专家集合S2;然后将推荐的专家集合S1中过滤掉需要规避的专家集合S2得到初步推荐的专家,即S=S1-S2;/n步骤3:得到初步推荐专家后按照影响力与其他限制条件进行二次过滤,并按照相关领域影响力排序得到最终的专家推荐列表。/n

【技术特征摘要】
1.一种结合标签构建与社区关系规避的专家推荐方法,其特征在于,包括以下步骤:
步骤1:对科技领域的专利数据库和论文数据库进行采集,提取出论文数据库中的作者以及专利数据库中的发明人,形成专家列表;然后对专家的属性信息补全,根据属性信息完成专家属性抽取和领域标签抽取;根据专家之间的关系形成科技领域的专家库;最后根据专家发表的论文数、论文影响因子、论文被引数、H指数和专利数维度进行建模,计算专家在相关领域的影响力;
步骤2:根据科技评审资料提取相关的科技领域,然后根据专家的领域标签过滤匹配度高的专家集合S1;同时提取科技评审资料中相关的申请人信息,作为需要直接规避的专家;然后根据社区发现算法以及专家之间的复杂关系,得到专家的社区关系;根据需要直接规避的专家及其关系比较紧密的专家社区关系,得到需要规避的专家集合S2;然后将推荐的专家集合S1中过滤掉需要规避的专家集合S2得到初步推荐的专家,即S=S1-S2;
步骤3:得到初步推荐专家后按照影响力与其他限制条件进行二次过滤,并按照相关领域影响力排序得到最终的专家推荐列表。


2.根据权利要求1所述的专家推荐方法,其特征在于,需要规避的专家集合S2的算法执行过程:
(1)给定网络G(V,E),其中V为点集,E为边集,将网络G中的每条边初始一个社区,即P0=(C1,C2,…,C|E|);
(2)找出最相似的属于不同社区的两条边eik和ejk,并将这两条边所属的社区进行合并;其中相似度按照如下公式计算:



其中n+(i)={x|d(i,j)≤1},d(i,j)表示节点i和x之间的最小距离;即n+(i)包含了节点i本身和i的邻居节点;
(3)重复执行(2)直到网络中所有的边被分到一个社区中;在此过程中,将每次迭代的结果存储在一个树状图中;
(4)在(3)得到的树状图中找出划分密度最大的那层社区划分结果作为最终社区结构;其中划分密度D定义为:



其中mc和nc分别表示社区c包含边的条数和节点的个数;
(5)将单链接层次聚类的结果转化为节点的集合,形成最终的专家的社区关系结构。
(6)根据需要直接规避的专家及其关系比较紧密的专家社区关系,得到需要规避的专家集合S2。
...

【专利技术属性】
技术研发人员:冯凯彭亮王元卓刘冰冰康锐文贾士杨
申请(专利权)人:中科院计算技术研究所大数据研究院
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1