企业业务数据分词权重优化方法、智能匹配方法及系统技术方案

技术编号：36887190 阅读：47 留言：0更新日期：2023-03-15 21:39

本发明专利技术公开了一种企业业务数据分词权重优化方法、智能匹配方法及系统，采用Jieba进行分词并融合了符号分词结果，基于BERT进行分词结果的嵌入式表示。考虑到词向量本身具有的稠密特性和高维特性，采用余弦相似度算法来度量文本的相似性，鉴于文本的分词结果中存在的帕累托现象，提出了一种考虑采用帕累托原理初始化权重的不定粒子群算法，增强文本匹配能力，实现输入关键字与数据库中企业核心业务特征的有效匹配。本发明专利技术方法使用户能够根据自己熟悉或有合作意向的核心业务关键词，准确高效地挖掘出相关企业。挖掘出相关企业。挖掘出相关企业。

全部详细技术资料下载

【技术实现步骤摘要】
企业业务数据分词权重优化方法、智能匹配方法及系统

[0001]本专利技术涉及以自然语言处理为技术支持的基于企业关键业务关键词的企业智能挖掘方法，特别是一种企业业务数据分词权重优化方法、智能匹配方法及系统。

技术介绍

[0002]自然语言处理(NLP)技术作为主流的人工智能技术之一，已经被广泛应用在智能搜索、舆情检测、智能问答机器人、文档信息深度提取、知识图谱构建等领域。早期的NLP技术的研究主要以统计学为理论基础[1]，随着近年来深度学习的快速发展，基于深度学习理论的研究也不断取得突破，如Seq2seq[2]、RNN[3]、LSTM[4]、GPT[5]、BERT[6]，BERT的出现让NLP的发展进入一个新的阶段,之后的NLP研究也大多围绕BERT模型及其变体展开。因为该文的实验样本都是中国企业，因此必须要结合中文分词技术。中文分词是通过某种方法或方法的组合，将输入的中文文本基于某种需求并按照特定的规范划分为“词”的过程[7]，中文分词技术被广泛应用到NLP任务中，包括信息检索、机器翻译、语音识别等，目前开源的分词工具主要有HanLP[8]、jieba[9]、pangu等。
[0003]企业核心业务是与多元化经营联系起来的概念，通常核心业务是指一个多元化经营的企业或企业集团中具有竞争优势并能够带来主要利润收入的业务[10]。在风险投资过程中，大部分的投资机构或个人投资者都会有行业赛道的投资偏向，在接触到某一企业时也会先去了解该企业所在行业的其他关联企业，因此根据投资者自身熟悉的行业、业务、产品开展企业搜索[1...

【技术保护点】

【技术特征摘要】
1.一种企业业务数据分词权重优化方法，其特征在于，包括：S1、统计数据集中每条数据的分词数量c，构建分词数量的集合C；所述数据集由多条企业业务数据构成；S2、对于集合C中的每个元素，归纳出Q个不同业务类型的关键词作为输入词，并从所述数据集中分别获取N个与所述输入词匹配的匹配结果，并按照匹配程度对所述匹配结果排序；S3、初始化分词权重，将初始化后的权重作为初始化粒子位置，同时随机初始化粒子的速度v；S4、计算每个粒子的适应度值f；S5、利用所述适应度值f更新粒子速度和位置，重新计算每个粒子的最优适应度值；S6、比较所有粒子的最优适应度值，获取种群的最优适应度值；S7、判断是否满足结束条件，若是，则输出分词数量为c的权重优化结果；否则，返回步骤S4。2.根据权利要求1所述的企业业务数据分词权重优化方法，其特征在于，步骤S3中，初始化分词权重的具体实现过程包括：1)对于企业集合中每个企业的核心业务数据分词，计算所述核心业务数据分词与用户输入的关键词之间的相似度，将所有相似度数据存入列表S
j
；2)对S
j
进行倒排序得到遵循Pareto法则，对中排前M％的相似度均赋予第一权重，其余相似度的则均赋予第二权重；3)将加权后的相似度值存入列表S；4)对S进行倒排序，得到初始化后的分词权重列表。3.根据权利要求2所述的企业业务数据分词权重优化方法，其特征在于，步骤1)之前，还包括：对已有企业业务文本数据进行词到词向量的...

【专利技术属性】
技术研发人员：黄雪芹，肖辉，谭帅雨蛟，潘亮，廖朋坤，
申请(专利权)人：北京聚创造网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人