一种用户产业类别识别方法及系统技术方案

技术编号:32859445 阅读:10 留言:0更新日期:2022-03-30 19:36
本发明专利技术提供了一种用户产业类别识别方法及系统,包括:获取所有待识别用户的研究领域描述文本,并采用分词器进行分词,得到所有待识别用户的研究领域分词文本;基于每个待识别用户的研究领域分词文本与产业分类字典中每个产业类别对应的关键词,计算每个待识别用户与每个产业类别的相关性得分;对于每个待识别用户,选择与其相关性得分最高的产业类别作为最终所属的产业类别;其中,某个待识别用户与某个产业类别的相关性得分与该产业类别对应的每个关键词在该待识别用户的研究领域分词文本中的出现频率、该产业类别对应的每个关键词的逆文档频率以及每个待识别用户的研究领域分词文本长度相关。有效提升了用户产业识别的准确率和效率。的准确率和效率。的准确率和效率。

【技术实现步骤摘要】
一种用户产业类别识别方法及系统


[0001]本专利技术属于自然语言处理
,尤其涉及一种用户产业类别识别方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]在高层次人才的研究过程中,需要将人才的研究领域与产业类别进行关联匹配,以实现人才的产业划分和统计分析,从而对区域产业战略发展规划提供辅助决策,更好服务人才。
[0004]目前,根据用户的研究领域进行产业划分时,大多数采用关键词相等匹配或者正则表达式匹配,此种方式会导致用户被匹配到多个产业上,匹配效果不佳,甚至需要人工介入,这就造成了用户产业划分的错误率较高、效率低下、匹配过程耗时较长等问题。

技术实现思路

[0005]为了解决上述
技术介绍
中存在的技术问题,本专利技术提供一种用户产业类别识别方法及系统,得出用户与产业类别的最佳匹配,有效提升了用户产业识别的准确率和效率。
[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]本专利技术的第一个方面提供一种用户产业类别识别方法,其包括:
[0008]获取所有待识别用户的研究领域描述文本,并采用分词器进行分词,得到所有待识别用户的研究领域分词文本;
[0009]基于每个待识别用户的研究领域分词文本与产业分类字典中每个产业类别对应的关键词,计算每个待识别用户与每个产业类别的相关性得分;
[0010]对于每个待识别用户,选择与其相关性得分最高的产业类别作为最终所属的产业类别;
[0011]其中,某个待识别用户与某个产业类别的相关性得分与该产业类别对应的每个关键词在该待识别用户的研究领域分词文本中的出现频率、该产业类别对应的每个关键词的逆文档频率以及每个待识别用户的研究领域分词文本长度相关。
[0012]进一步的,还包括:构建产业分类字典;
[0013]所述产业分类字典中包含若干个产业类别,每个产业类别对应多个关键词。
[0014]进一步的,所述计算每个待识别用户与每个产业类别的相关性得分的具体步骤为:
[0015]基于所有待识别用户的研究领域分词文本,建立用户研究领域分词文本集合;
[0016]基于产业分类字典,建立产业分类字典集合;
[0017]基于用户研究领域分词文本集合和产业分类字典集合,使用笛卡尔乘积建立所有可能的有序对;
[0018]使用相关性算法,计算每个有序对中,产业类别和待识别用户的相关性得分。
[0019]进一步的,所述相关性算法为BM25相关性算法。
[0020]进一步的,每个有序对由一个待识别用户的所有研究领域分词文本和一个产业类别对应的所有关键词组成。
[0021]进一步的,所述分词器为IK中文分词器。
[0022]本专利技术的第二个方面提供一种用户产业类别识别系统,其包括:
[0023]分词模块,其被配置为:获取所有待识别用户的研究领域描述文本,并采用分词器进行分词,得到所有待识别用户的研究领域分词文本;
[0024]相关性得分计算模块,其被配置为:基于每个待识别用户的研究领域分词文本与产业分类字典中每个产业类别对应的关键词,计算每个待识别用户与每个产业类别的相关性得分;
[0025]识别模块,其被配置为:对于每个待识别用户,选择与其相关性得分最高的产业类别作为最终所属的产业类别;
[0026]其中,某个待识别用户与某个产业类别的相关性得分与该产业类别对应的每个关键词在该待识别用户的研究领域分词文本中的出现频率、该产业类别对应的每个关键词的逆文档频率以及每个待识别用户的研究领域分词文本长度相关。
[0027]进一步的,还包括产业分类字典构建模块,其被配置为:构建产业分类字典;
[0028]所述产业分类字典中包含若干个产业类别,每个产业类别对应多个关键词。
[0029]本专利技术的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的一种用户产业类别识别方法中的步骤。
[0030]本专利技术的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的一种用户产业类别识别方法中的步骤。
[0031]与现有技术相比,本专利技术的有益效果是:
[0032]本专利技术提供了一种用户产业类别识别方法,其利用产业关键词在用户研究领域的出现词频、在所有用户研究领域出现次数、用户研究领域字符串长度的信息,计算相关性得分,按照得分排序取最高分,得出用户与产业关键词的最佳匹配,从而实现用户与产业的最佳关联,有效提升了用户产业识别的准确率和匹配效率。
[0033]本专利技术提供了一种用户产业类别识别方法,其节省了大量的人工校验和纠偏工作,有效解决了以往用户产业划分方式粗略且准确率低的问题,提升了整体工作效率和用户产业分析的准确性和客观性。
附图说明
[0034]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0035]图1是本专利技术实施例一的一种用户产业类别识别方法的流程图。
具体实施方式
[0036]下面结合附图与实施例对本专利技术作进一步说明。
[0037]应该指出,以下详细说明都是例示性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0038]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0039]术语解释:
[0040]笛卡尔乘积(Cartesian product):笛卡尔乘积是指在数学中,两个集合X和Y的笛卡尔积,又称直积,表示为X
×
Y,第一个对象是X的成员而第二个对象是Y的所有可能有序对的其中一个成员。
[0041]正则表达式(regular expression):描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。
[0042]实施例一
[0043]本实施例提供了一种用户产业类别识别方法,利用产业关键词在用户研究领域的出现词频、在所有用户研究领域出现次数、用户研究领域字符串长度的信息,使用BM25算法计算相关性得分,按照得分排序取最高分,得出用户与产业关键词的最佳匹配,从而实现用户与产业的最佳关联,有效提升了用户产业识别的准确率和匹配效率,如图1所示,主要包括以下步骤:
[0044]步骤1:构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户产业类别识别方法,其特征在于,包括:获取所有待识别用户的研究领域描述文本,并采用分词器进行分词,得到所有待识别用户的研究领域分词文本;基于每个待识别用户的研究领域分词文本与产业分类字典中每个产业类别对应的关键词,计算每个待识别用户与每个产业类别的相关性得分;对于每个待识别用户,选择与其相关性得分最高的产业类别作为最终所属的产业类别;其中,某个待识别用户与某个产业类别的相关性得分与该产业类别对应的每个关键词在该待识别用户的研究领域分词文本中的出现频率、该产业类别对应的每个关键词的逆文档频率以及每个待识别用户的研究领域分词文本长度相关。2.如权利要求1所述的一种用户产业类别识别方法,其特征在于,还包括:构建产业分类字典;所述产业分类字典中包含若干个产业类别,每个产业类别对应多个关键词。3.如权利要求1所述的一种用户产业类别识别方法,其特征在于,所述计算每个待识别用户与每个产业类别的相关性得分的具体步骤为:基于所有待识别用户的研究领域分词文本,建立用户研究领域分词文本集合;基于产业分类字典,建立产业分类字典集合;基于用户研究领域分词文本集合和产业分类字典集合,使用笛卡尔乘积建立所有可能的有序对;使用相关性算法,计算每个有序对中,产业类别和待识别用户的相关性得分。4.如权利要求3所述的一种用户产业类别识别方法,其特征在于,所述相关性算法为BM25相关性算法。5.如权利要求3所述的一种用户产业类别识别方法,其特征在于,每个有序对由一个待识别用户的所有研究领域分词文本和一个产业类别对应的所有关键词组成。...

【专利技术属性】
技术研发人员:吴士伟李慧娟王兴华彭志进韩中玉于杨李娜崔欣剑纪丽萍
申请(专利权)人:山东亿云信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1