一种用户产业类别识别方法及系统技术方案

技术编号：32859445 阅读：10 留言：0更新日期：2022-03-30 19:36

本发明专利技术提供了一种用户产业类别识别方法及系统，包括：获取所有待识别用户的研究领域描述文本，并采用分词器进行分词，得到所有待识别用户的研究领域分词文本；基于每个待识别用户的研究领域分词文本与产业分类字典中每个产业类别对应的关键词，计算每个待识别用户与每个产业类别的相关性得分；对于每个待识别用户，选择与其相关性得分最高的产业类别作为最终所属的产业类别；其中，某个待识别用户与某个产业类别的相关性得分与该产业类别对应的每个关键词在该待识别用户的研究领域分词文本中的出现频率、该产业类别对应的每个关键词的逆文档频率以及每个待识别用户的研究领域分词文本长度相关。有效提升了用户产业识别的准确率和效率。的准确率和效率。的准确率和效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种用户产业类别识别方法及系统

[0001]本专利技术属于自然语言处理
，尤其涉及一种用户产业类别识别方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。
[0003]在高层次人才的研究过程中，需要将人才的研究领域与产业类别进行关联匹配，以实现人才的产业划分和统计分析，从而对区域产业战略发展规划提供辅助决策，更好服务人才。
[0004]目前，根据用户的研究领域进行产业划分时，大多数采用关键词相等匹配或者正则表达式匹配，此种方式会导致用户被匹配到多个产业上，匹配效果不佳，甚至需要人工介入，这就造成了用户产业划分的错误率较高、效率低下、匹配过程耗时较长等问题。

技术实现思路

[0005]为了解决上述
技术介绍
中存在的技术问题，本专利技术提供一种用户产业类别识别方法及系统，得出用户与产业类别的最佳匹配，有效提升了用户产业识别的准确率和效率。
[0006]为了实现上述目的，本专利技术采用如下技术方案：
[0007]本专利技术的第一个方面提供一种用户产业类别识别方法，其包括：
[0008]获取所有待识别用户的研究领域描述文本，并采用分词器进行分词，得到所有待识别用户的研究领域分词文本；
[0009]基于每个待识别用户的研究领域分词文本与产业分类字典中每个产业类别对应的关键词，计算每个待识别用户与每个产业类别的相关性得分；
[0010]对于每个待识别用户，选择与其相关性得分最高的产业类别作为最终...

【技术保护点】

【技术特征摘要】
1.一种用户产业类别识别方法，其特征在于，包括：获取所有待识别用户的研究领域描述文本，并采用分词器进行分词，得到所有待识别用户的研究领域分词文本；基于每个待识别用户的研究领域分词文本与产业分类字典中每个产业类别对应的关键词，计算每个待识别用户与每个产业类别的相关性得分；对于每个待识别用户，选择与其相关性得分最高的产业类别作为最终所属的产业类别；其中，某个待识别用户与某个产业类别的相关性得分与该产业类别对应的每个关键词在该待识别用户的研究领域分词文本中的出现频率、该产业类别对应的每个关键词的逆文档频率以及每个待识别用户的研究领域分词文本长度相关。2.如权利要求1所述的一种用户产业类别识别方法，其特征在于，还包括：构建产业分类字典；所述产业分类字典中包含若干个产业类别，每个产业类别对应多个关键词。3.如权利要求1所述的一种用户产业类别识别方法，其特征在于，所述计算每个待识别用户与每个产业类别的相关性得分的具体步骤为：基于所有待识别用户的研究领域分词文本，建立用户研究领域分词文本集合；基于产业分类字典，建立产业分类字典集合；基于用户研究领域分词文本集合和产业分类字典集合，使用笛卡尔乘积建立所有可能的有序对；使用相关性算法，计算每个有序对中，产业类别和待识别用户的相关性得分。4.如权利要求3所述的一种用户产业类别识别方法，其特征在于，所述相关性算法为BM25相关性算法。5.如权利要求3所述的一种用户产业类别识别方法，其特征在于，每个有序对由一个待识别用户的所有研究领域分词文本和一个产业类别对应的所有关键词组成。...

【专利技术属性】
技术研发人员：吴士伟，李慧娟，王兴华，彭志进，韩中玉，于杨，李娜，崔欣剑，纪丽萍，
申请(专利权)人：山东亿云信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人