一种基于关键词打分的评审专家推荐方法技术

技术编号:35075664 阅读:24 留言:0更新日期:2022-09-28 11:40
本发明专利技术公开了一种基于关键词打分的评审专家推荐方法,包括:根据评论专家库中的专家信息补充专家学术信息并处理;根据专家的基本信息及专家学术数据构建专业词汇词典;根据专业词汇词典提取专家备选关键词和项目备选关键词;确定专家关键词及项目关键词,并通过关键词的匹配,推荐合适的专家。该方法首先实用一套关键词库提取备选关键词保证信息维度的一致性,其次补充专家的学术数据,基于关键词的专家推荐方法能够综合考虑专家信息的维度并弥补当前评标专家推荐方法适配度较低的问题。题。题。

【技术实现步骤摘要】
一种基于关键词打分的评审专家推荐方法


[0001]本专利技术涉及自然语言处理领域和计算机信息处理
,尤其涉及一种基于专家信息和评标文件以及改进的关键词打分算法的评审专家推荐方法。

技术介绍

[0002]项目招投标过程中,在开标前需要由招标人在专家库中抽取专家组成评标委员会。对于一般招标项目,通常可以采取随机抽取的方式确定。对于特殊招标项目,由于其专业要求较高,技术要求复杂,需要由招标人在相关专业的专家名单中选择合适的专家。
[0003]在这个过程中首先要求招标人熟悉当前项目,明确当前项目涉及的内容所属专业,然后进行选择。目前在各类评标项目的专家选择阶段,大多数的政府部门,科技单位、企业等仍然采用人工选择的方式。这种人工选择的方式往往存在很大的弊端,有时各类机构的评标立项活动会集中在某一个时间段内同时进行,这种时候需要选拔的专家数量较多,同时需要考虑每个项目的专家分配情况,会造成大量的人力资源消耗,也会出现分配不合理的现象。而在人工遴选评标专家时,首先需要评标人对待评审的评标项目进行分析,确定评标项目所涉及的专业,再从相应的专业中分析专家的研究方向与项目涉及的方向是否相吻合,进而确定评标专家。通常专家往往具备多个研究方向,单纯的依靠人工进行所有科研项目的分析,无法保证遴选人员对评标项目所涉及领域具有正确的判断,因而将导致所邀请的评审专家研究领域与待评审的评标项目领域不匹配的问题。这在一定程度上会对项目评审结果造成不良影响。因此,为提升科研项目的评审质量,针对领域科研项目评审专家的推荐具有重要的研究意义。<br/>[0004]目前,推荐算法主要应用于电商、新闻、音乐等领域,针对评标文件评审专家的推荐算法的研究较少。现有关于评标专家的推荐方法大多围绕专家的评标地域、专家基本信息等实现专家推荐。针对具体项目的评标方法较少。现有评标专家推荐方法并没有兼容专家的学术信息,且上述的推荐方法并没有考虑专家与评标项目的适配度。本专利技术采用自然语言处理技术利用专家评标经理信息、专家学术信息,评标文件等内容设计一套基于关键词的评审专家推送方法。首先使用一套关键词库提取备选关键词保证信息维度的一致性,其次补充专家的学术数据,基于关键词的专家推荐方法能够综合考虑专家信息的维度并弥补当前评标专家推荐方法适配度较低的问题。

技术实现思路

[0005]为解决上述技术问题,本专利技术的目的是提供一种基于关键词打分的评审专家推荐方法。
[0006]本专利技术的目的通过以下的技术方案来实现:
[0007]一种基于关键词打分的评审专家推荐方法,包括:,
[0008]基于关键词打分的评审专家推荐方法,其特征在于,
[0009]A根据评论专家库中的专家信息补充专家学术信息并处理;
[0010]B根据专家的基本信息及专家学术数据构建专业词汇词典;
[0011]C根据专业词汇词典提取专家备选关键词和项目备选关键词;
[0012]D确定专家关键词及项目关键词,并通过关键词的匹配,推荐合适的专家。
[0013]与现有技术相比,本专利技术的一个或多个实施例可以具有如下优点:
[0014]该方法首先实用一套关键词库提取备选关键词保证信息维度的一致性,其次补充专家的学术数据,基于关键词的专家推荐方法能够综合考虑专家信息的维度并弥补当前评标专家推荐方法适配度较低的问题。
附图说明
[0015]图1是基于关键词打分的评审专家推荐方法流程图;
[0016]图2是基于关键词的专家推荐流程图;
[0017]图3是专业词汇词典构建流程图;
[0018]图4是专业词汇词典构建结果图;
[0019]图5是专家关键词提取结果图;
[0020]图6是项目关键词提取结果图;
[0021]图7是基于关键词的专家推荐结果图;
[0022]图8是基于关键词相似匹配的专家推荐结果图。
具体实施方式
[0023]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本专利技术作进一步详细的描述。
[0024]如图1和图2所示,为基于关键词打分的评审专家推荐方法,包括
[0025]步骤10根据评论专家库中的专家信息补充专家学术信息并处理;
[0026]步骤20根据专家的基本信息及专家学术数据构建专业词汇词典;
[0027]步骤30根据专业词汇词典提取专家备选关键词和项目备选关键词;
[0028]步骤40确定专家关键词及项目关键词,并通过关键词的匹配,推荐合适的专家。
[0029]上述步骤10具体包括:
[0030]1、专家学术数据补充及预处理:
[0031]针对专家数据的补充主要有以下几步:
[0032](1)首先根据专家姓名及单位等基本信息从知网数据源中匹配相关专家,对于匹配到多个基本信息一致的专家,采用人工的方式对专家进行审核。
[0033](2)补充专家库基本信息:研究领域、研究方向、专家学科、专家关键词等。
[0034](3)补充专家学术信息:专利数据名称、专利数据摘要、专利数据关键词、学位数据名称、学位数据摘要、学位数据关键词、期刊数据名称、期刊数据摘要、期刊数据关键词、会议数据名称、会议数据摘要、报纸数据名称等。
[0035]针对专家数据处理的补充主要有以下几步:
[0036](1)去除各字段中的特殊的字符、连接符等;将字段中的繁体转换成中文简体。
[0037](2)由于专家源信息及知网匹配的多个字段信息中存在相同类型的数据。需要对不同类型的数据按数据类别进行合并。合并后得类别有:研究领域、学术数据、评审品目、项
目数据、专业、知网关键词。
[0038](3)根据专家数据的完整度实现专家评级。
[0039]2、项目数据预处理
[0040]采用评标文件提取项目信息,主要有以下几个步骤:
[0041](1)评标文件碎片化存储,提取文件中的篇章及字符。
[0042](2)评标文件较多的章节并不是介绍项目信息,而是界定整个评标流程包括合同说明等,这会导致使用整个评标文件去提取关键词不准确,因此需要首先提取项目招标公告章节。
[0043]上述步骤20具体包括:利用补充后的专家信息采用新词发现算法经人工及规则筛选后构建专业词汇词典,并将专业词典存入数据库中,词典构建流程如图3所示。
[0044]评标专家库中往往包含专家的评审品目,专家的评标经历、成果业绩等等信息,结合知网数据库,我们还能得到专家以往发表期刊文献的数据,这些数据中通常涉及较多的领域词汇,这些领域词汇往往不常见,利用新词发现算法可以筛选出此类词汇。对于给定的专家数据,采用基于凝固度及自由度的新词发现算法得到备选专业词汇经过人工及规则筛选得到专业词汇词典(构建结果及存储如图4所示)。
[0045]基于凝固度与自由度的新词发现是经典的新词发现算法,凝固度就是一个字组合片段里面字与字之间的紧密程度。比如“琉璃”、“榴莲”这样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关键词打分的评审专家推荐方法,其特征在于,A根据评论专家库中的专家信息补充专家学术信息并处理;B根据专家的基本信息及专家学术数据构建专业词汇词典;C根据专业词汇词典提取专家备选关键词和项目备选关键词;D确定专家关键词及项目关键词,并通过关键词的匹配,推荐合适的专家。2.如权利要求1所述的基于关键词打分的评审专家推荐方法,其特征在于,所述A中专家学术信息的处理包括:专家学术数据补充及预处理与项目数据预处理;所述B具体包括,对于不常见的领域词汇,利用新词发现算法进行筛选;对于给定的专家数据,采用基于凝固度及自由度的新词发现算法得到备选专业词汇,并筛选得到专业词典;所述凝固度就是一个字组合片段里面字与字之间的紧密程度;所述自由度就是一个字组合片段能独立自由运用的程度。3.如权利要求2所述的基于关键词打分的评审专家推荐方法,其特征在于,词凝固度与自由度的大小计算包括:利用N

gram得到原文本中的所有可能成词的字组合,并统计词频;计算凝固度词汇的凝固程度,凝固度越大,其组成一个新词的可能性也就越大:其中,I(x,y)代表由字x及字y组成的新词凝固度,P(x,y)代表字x及字y联合出现的概率;P(x)代表字x单独出现的概率,P(y)代表字y单独出现的概率;计算左右熵,左右熵值越大,说明该词的周边词越丰富,意味着词的自由程度越大,其成为一个独立的词的可能性也就越大就越大其中,EL代表左熵,ER代表右熵,P(W
i
|string)代表给定字符串string的情况下其左右两边出现字W
i
的概率。4.如权利要求1所述的基于关键词打分的评审专家推荐方法,其特征在于,所述C具体包括:基于TF

IDF的关键词打分模型分别对基于专家关键词的打分模型及基于项目关键词的打分模型进行改进。5.如权利要求4所述的基于关键词打分的评审专家推荐方法,其特征在于,所述C1中TF为词频,表示词条在文本中出现的频率:其中n
ij
代表词i在文本j中出现的次数,TF
ij
代表词i在文本j中出现的词频;IDF为逆文件频率,表示关键词的普遍程度,如果包含某词条的文档越少,则该词条IDF越大,则说明该词条具有很好的类别区分能力;其中其中,|D|代表文本总数量,d
j
代表文本j,IDF
i
代表词i的逆文档频率;TF

IDF倾向于过
滤掉常见的词语,保留重要的词语,表达为:TF

IDF=TF*IDF
ꢀꢀꢀꢀꢀꢀꢀ
(6)。6.如权利要求4所述的基于关键词打分的评审专家推荐方法,其特征在于,所述C2具体包括:在为专家关键词进行打分时,通过专家信息分配权重的方式对打分模型进行改进,具体为:根据信息类型配置初始权重,在初始权重基础上,针对不同的词进行调整,调整原则为:某字段某关键词在大多数人的该字段均有出现则在初始权重基础上适当惩罚;某字段某关键词仅在某个人的该字段出现则在初始权重基础上适当奖励;表达为如下公式:TF

IDF=TF*IDF*w
k
ꢀꢀꢀꢀꢀꢀ
(7)其中W

k
代表人为根据字段设置的初始权重,W
k

【专利技术属性】
技术研发人员:刘军王似巍周万青罗梦灵杨永秀吕强段飞虎张宏伟
申请(专利权)人:同方知网数字出版技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1