专家库建立办法和装置制造方法及图纸

技术编号:15542529 阅读:40 留言:0更新日期:2017-06-05 11:26
本发明专利技术涉及一种专家库建立方法和装置,该方法包括以下步骤:样本收集步骤,收集特定领域的专家样本,包括专家的论文、专利和项目,形成训练集;专家分类模型建立步骤,根据训练库建立专家分类模型;直接专家识别步骤,利用所建立的专家分类模型,对全部待分类专家进行识别和分类,判断其是否属于所述特定领域的专家;合作专家识别步骤,根据待分类专家与所述特定领域的专家的合作度确定待分类专家是否属于所述特定领域的专家。

Method and device for establishing expert library

The present invention relates to a method and device for establishing a database of experts, the method comprises the following steps: sample collection procedures, sample collection experts in specific fields, including expert papers, patents and projects, the formation of the training set; step to establish the expert classification model based on expert classification model training base; direct expert recognition steps, using the expert classification the model for the identification and classification of all classification experts, to determine whether it belongs to the domain of experts; cooperation experts identify steps, according to the experts to be classified with the experts in specific areas of cooperation to determine the expert classification experts whether belonging to the special field.

【技术实现步骤摘要】
专家库建立办法和装置
本专利技术涉及专家库的建立。
技术介绍
专家是特定领域有卓越表现和高度专业能力的个人。一方面,专家可以在科技项目开发中起到重要的作用,另一方面,很多评审等活动需要专家的参与,例如招标等。实际上,2003年发改委还专门制定了《评标专家和评标专家库管理暂行办法》。但是目前所建立的专家数据库要么局限在人员手工的收集,要么是专家自己的报名。现有技术中,没有好的办法根据大量的信息(例如互联网信息)或大的总库中寻找特定专家的办法。
技术实现思路
本专利技术针对现有技术的以上缺点做出,用以克服现有技术的一个或更多个缺点,至少提供一种有益的选择。根据本专利技术的一个方面,提供了一种专家库建立方法,包括以下步骤:样本收集步骤,收集特定领域的专家样本,包括专家的论文、专利和项目,形成训练集;专家分类模型建立步骤,根据训练库建立专家模型;直接专家识别步骤,利用所建立的专家模型,对全部待分类专家进行识别和分类,判断其是否属于所述特定领域的专家;合作专家识别步骤,根据待分类专家与所述特定领域的专家的合作度确定待分类专家是否属于领域专家。根据本专利技术的另一方面,提供了一种专家库建立装置,包括:专家样本收集装置,收集特定领域的专家样本,包括专家的论文、专利和项目,形成训练集;专家分类模型建立装置,根据训练库建立专家分类模型;直接专家识别装置,利用所建立的专家分类模型,对全部待分类专家进行识别和分类,判断其是否属于所述特定领域的专家;合作专家识别装置,根据待分类专家与所述特定领域的专家的合作度确定待分类专家是否属于所述特定领域的专家。根据本专利技术的实施方式,可以快速而准确地建立专家库。附图说明附图仅仅是示例性的,不是对本专利技术的保护范围的限制。图1示出了依据本专利技术的一种实施方式的专家库建立方法的流程图。图2示出了依据本专利技术的另一种实施方式的专家库建立方法的流程图。图3示出了依据本专利技术的一种实施方式的专家库建立装置的示意图。具体实施方式下面结合附图对本专利技术的具体实施方式进行描述,对本专利技术的以下描述仅仅是为了本领域技术人员能够实现本专利技术,不是对本专利技术的保护范围的限制。图1示出了依据本专利技术的一种实施方式的专家库建立方法的流程图。如图1所示,首先在步骤101中进行专家样本收集。收集特定领域的专家的样本,包含该专家所作的论文、专利、项目。这些样本可被分为训练集和测试集。训练集用于建立专家模型,测试集用于测试和改进专家模型。根据本专利技术的一种实施方式,训练集中的样本数目是测试集中的样本数目的4.5倍到9倍。另外,根据本专利技术的一种实施方式,将训练集分为论文训练集、专利训练集和项目训练集。将测试集分为论文测试集、专利测试集和项目测试集。训练集中出现的样本被称为训练语料。测试集中的出现的样本被称为测试语料。接着在步骤102,构建专家分类模型。该步骤可以分为专家分类模型构建步骤1021和专家分类模型修正步骤1022。在专家分类模型构建步骤中,利用训练集构建专利分类模型。在专家分类模型修正步骤中,利用测试集对专家分类模型进行测试,并调整参数,得到错判、漏判率都较低的模型。根据本专利技术的一种实施方式,专家分类模型构建步骤中,利用向量空间模型来表达文本。将文档转化为m维词条空间中的一个向量d=(W1,W2,W3…Wm)T,其中Wi为向量在第i个词条上的权重。根据一种实施方式,依据以下公式计算各词条的权重:其中,w(t,d)为词条t在文本d中的权重,tf(t,d)为词条t在文本d中的词频,N为训练文本的总数,nt为训练文本中出现t的文本数。根据本专利技术的一种实施方式,对于2008年之后的专利文件,tf(t,d)另外乘以1.1到1.5之间的系数,对于2002年之前的专利文献,tf(t,d)另外乘以0.8到0.95之间的系数。该系数的大小根据专利所涉及的
确定。根据本专利技术的一种实施方式,利用文档频率法进行特征选择。词条的文档频率是指在训练语料中出现该词条的文档数。将文档频率小于预定义阈值的低频词从原始向量空间中移除。依据本专利技术的一种实施方式,低频词为在所有训练语料中出现该词条的文档数低于第一阈值,并且在近3年的训练语料中,出现该词条的文档数低于第二阈值。依据该实施方式,可以避免将新出现的边缘学科的专家排除在外。另外依据本专利技术的一种实施方式,包括新词确认步骤。在该步骤中,对于这样的低频词,即3年前的所有训练语料中均未出现,但是在近3年的训练语料中有第三阈值的文档中出现该词的,进行提示,由创建专家库的人员确认是否列入低频词。根据本专利技术的一种实施方式,采用SVM方法作为分类器算法。依据本专利技术一种实施方式,SVM利用公式2作为分类函数,并以公式3为约束条件。yi[(ω·xi)+b]-1≥0,i=1,2,...,n(3)其中,ω为间隔系数。所述间隔是指该最优分类面到最近样本的距离,即2/||ω||。分类线方程为y=xω+b,(xi,yi)表示样本坐标,i=1,2,...,n,x∈Rd,y∈{+1,-1}。αi为每个约束条件(公式3)对应的Lagrange乘子。b*是分类阈值,可以用任一个支持向量(满足公式3中的等号)求得。应该注意,以上的描述均为示意性的,并不是对本专利技术的限制,受益于本专利技术的技术人员可以想到用其他的方法,例如回归模型法、最近邻分类法、朴素贝叶斯分类法、决策树法、规则学习算法、相关反馈法、选举分类法、神经网络法、纠错输出编码法、最大熵法、休眠专家法等作为分类其的算法。进一步,在步骤103,利用所建立的专家模型,对全部待分类专家进行识别和分类,判断其是否属于该特定领域的专家。根据一种实施方式,将待分类专家的论文、专利或项目与专家库模型进行比对,如果距离小于阈值,则可判断该专家为该领域专家,并将其并入该专家库。根据一种实施方式,专家模型还分为专利子模型、论文子模型、项目子模型。待分类专家与总模型之间的距离小于所述阈值时,还进一步与各子模型进行比对,与任一子模型之间的距离小于特定阈值时即可认为该专家属于该领域专家。进一步,在步骤104,计算剩余待分类专家中各专家的合作度。剩余待分类专家即全部待分类专家去除在步骤103中已经被确定为该领域专家的专家之后剩余的专家。将专家之间的关系分为一度合作关系、N度合作关系(一般取N为大于等于2小于等于5)以及无合作关系。具有直接合作关系的专家,例如论文的共同作者、专利的专利技术人、项目的共同参与者为一度合作关系。具有间接合作关系的专家,例如论文X(一度合作文本)的共同作者为A、B,论文Y(二度合作文本)的共同作者为B、C,则A与C之间通过一个连接人B而发生关联,成为二度合作关系。如果C进一步与D合作发表了论文Z(三度合作文本),则A与D之间的关系为三度合作关系,依次类推。合作关系可以根据全专家数据库、全论文数据库等获得。根据一种实施方式,待分类专家与已识别出的领域专家之间的合作度如下地进行计算:首先计算已识别出的领域专家中与待分类专家为一度合作者的人数,以及一度合作的论文、专利、项目以及它们的数量,即合作次数。根据合作次数确定一度合作权重系数j1,合作的次数越多,一度合作权重系数j1越大,例如可以对各次合作进行求和。根据一种实施方式,还根据合作的论文、专利、项目的质量调整各次合作权重系数。即计算所合作的论文、专利、项目与本文档来自技高网
...
专家库建立办法和装置

【技术保护点】
一种专家库建立方法,包括以下步骤:专家样本收集步骤,收集特定领域的专家样本,包括专家的论文、专利和项目,形成训练集;专家分类模型建立步骤,根据训练库建立专家分类模型;直接专家识别步骤,利用所建立的专家分类模型,对全部待分类专家进行识别和分类,判断其是否属于所述特定领域的专家;合作专家识别步骤,根据待分类专家与所述特定领域的专家的合作度确定待分类专家是否属于所述特定领域的专家。

【技术特征摘要】
1.一种专家库建立方法,包括以下步骤:专家样本收集步骤,收集特定领域的专家样本,包括专家的论文、专利和项目,形成训练集;专家分类模型建立步骤,根据训练库建立专家分类模型;直接专家识别步骤,利用所建立的专家分类模型,对全部待分类专家进行识别和分类,判断其是否属于所述特定领域的专家;合作专家识别步骤,根据待分类专家与所述特定领域的专家的合作度确定待分类专家是否属于所述特定领域的专家。2.根据权利要求1所述的专家库建立方法,其特征在于,在所述专家样本收集步骤,还形成测试集,所述专家分类模型建立步骤还包括使用所述测试集对所述专家分类模型进行测试和修正。3.根据权利要求2所述的专家库建立方法,其特征在于,所述合作专家识别步骤包括:一度合作者确定步骤,确定已识别出的所述特定领域专家中与待分类专家为一度合作者的专家,一度合作的论文、专利、项目以及其数量,即一度合作次数;一度合作权重系数确定步骤,针对各一度合作者,根据所述一度合作的论文、专利、项目以及所述一度合作次数,确定各一度合作者的权重系数;二度合作者确定步骤,确定已识别出的所述特定领域专家中与待分类专家为二度合作者的专家,二度合作的论文、专利、项目以及其数量,即二度合作次数;二度合作权重系数确定步骤,针对各二度合作者,根据所述一度合作的论文、专利、项目以及所述二度合作次数,所述二度合作的论文、专利、项目以及所述合作次数确定各二度合作者的权重系数;合作度计算步骤,根据各所述一度合作者的权重系数和各所述二度合作者的权重系数计算各待分类专家与所述特定领域的专家的合作度。4.根据权利要求3所述的专家库建立方法,其特征在于,在所述一度合作权重系数确定步骤中,根据合作次数确定一度合作权重系数j1,合作的次数越多,一度合作权重系数j1越大,还根据合作的论文、专利、项目的质量调整各次合作权重系数,即计算所合作的论文、专利、项目与专家分类模型之间的距离,距离越小,该次一度合作权重系数越大。5.根据权利要求4所述的专家库建立方法,其特征在于,在所述二度合作权重系数确定步骤中,二次合作的次数越多,二度合作权重系数j2越大,还根据一度合作的论文、专利、项目的质量、二度合作论文的质量调整每次二度合作的二次合作权重系数。6.根据权利要求5所述的专家库建立方法,其特征在于,在所述二度合作权重系数确定步骤中,计算一度合作的论文、专利、项目与专家分类模型之间的距离,以及该二度合作的论文、专利、项目与专家分类模型之间的距离,并计算综合距离,距离越小,则该次二度合作权重系数越大,综合距离为考虑一度合作论文的权重调节系数和二度合作论文的权重调节系数之后得到的距离。7.根据权利要求6所...

【专利技术属性】
技术研发人员:霍东云崔星汉方垚李燕茜
申请(专利权)人:北京赛时科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1