企业业务数据分词权重优化方法、智能匹配方法及系统技术方案

技术编号:36887190 阅读:47 留言:0更新日期:2023-03-15 21:39
本发明专利技术公开了一种企业业务数据分词权重优化方法、智能匹配方法及系统,采用Jieba进行分词并融合了符号分词结果,基于BERT进行分词结果的嵌入式表示。考虑到词向量本身具有的稠密特性和高维特性,采用余弦相似度算法来度量文本的相似性,鉴于文本的分词结果中存在的帕累托现象,提出了一种考虑采用帕累托原理初始化权重的不定粒子群算法,增强文本匹配能力,实现输入关键字与数据库中企业核心业务特征的有效匹配。本发明专利技术方法使用户能够根据自己熟悉或有合作意向的核心业务关键词,准确高效地挖掘出相关企业。挖掘出相关企业。挖掘出相关企业。

【技术实现步骤摘要】
企业业务数据分词权重优化方法、智能匹配方法及系统


[0001]本专利技术涉及以自然语言处理为技术支持的基于企业关键业务关键词的企业智能挖掘方法,特别是一种企业业务数据分词权重优化方法、智能匹配方法及系统。

技术介绍

[0002]自然语言处理(NLP)技术作为主流的人工智能技术之一,已经被广泛应用在智能搜索、舆情检测、智能问答机器人、文档信息深度提取、知识图谱构建等领域。早期的NLP技术的研究主要以统计学为理论基础[1],随着近年来深度学习的快速发展,基于深度学习理论的研究也不断取得突破,如Seq2seq[2]、RNN[3]、LSTM[4]、GPT[5]、BERT[6],BERT的出现让NLP的发展进入一个新的阶段,之后的NLP研究也大多围绕BERT模型及其变体展开。因为该文的实验样本都是中国企业,因此必须要结合中文分词技术。中文分词是通过某种方法或方法的组合,将输入的中文文本基于某种需求并按照特定的规范划分为“词”的过程[7],中文分词技术被广泛应用到NLP任务中,包括信息检索、机器翻译、语音识别等,目前开源的分词工具主要有HanLP[8]、jieba[9]、pangu等。
[0003]企业核心业务是与多元化经营联系起来的概念,通常核心业务是指一个多元化经营的企业或企业集团中具有竞争优势并能够带来主要利润收入的业务[10]。在风险投资过程中,大部分的投资机构或个人投资者都会有行业赛道的投资偏向,在接触到某一企业时也会先去了解该企业所在行业的其他关联企业,因此根据投资者自身熟悉的行业、业务、产品开展企业搜索[11]、横向对比是一个明确的需求。
[0004]通常在风险投资时,投资机构或个人投资者要进行的主要步骤流程如下:

寻找投资机会;

初步筛选;

调研和评估;

寻找合投资金;

协商谈判;

投资交易。对风险投资的这六个阶段的主要内容描述如图1所示。其中每个阶段的任务都需要大量有经验的专业人士花费较多时间去完成,而许多专业经验知识已经是公认的经验性知识了,可以由现代的一些新技术方法去替代部分人力以及提供更便捷的辅助决策服务等。
[0005]文本相似性的计算需要先将文本通过技术手段切分后转变成高纬稠密向量,才便于文本之间的相似性度量。Jieba的主要功能是做中文分词,可以进行简单分词、并行分词、命令行分词,当然它的功能不限于此,目前还支持关键词提取、词性标注、词位置查询等。它支持的分词模式包括精确模式、全模式、搜索引擎模式等。精确模式是将句子最精确地切开,适合文本分析;全模式是把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式是在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
[0006]BERT(Bidirectional Encoder Representation from Transformers),是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model,以致能生成深度的双向语言表征。BERT论文发表时提及在11个NLP任务中获得了新的state

of

the

art的结果。该模型有以下主要优点:

采用MLM对双向的Transformers进行预训练,以
生成深层的双向语言表征;

预训练后,只需要添加一个额外的输出层进行fine

tune,就可以在各种各样的下游任务中取得state

of

the

art的表现。在这过程中并不需要对BERT进行任务特定的结构修改。
[0007]将一段文本的分词结果用于智能匹配的难点在于几个方面:一是对文本分词的准确性;二是要排除使用场景中无用词汇的影响,如“的”,“你”,“我”,“他”等;三是要考虑每段文本各分词在关键词匹配任务中的权重占比如何分配。这三方面的难点很容易让人联想到帕累托定律,关于帕累托定律存在许多不同的表述,如80/20法则、重要少数法则等[13,14]。帕累托定律在一定程度上揭示了少数与多数、特殊与一般、局部与整体的关系,它是一种哲学思想的生动体现。“效率”是帕累托定律的核心,精英化、集权化、中心化则是其本质。由帕累托定律的现象,可知在计算用户输入的关键词与企业核心业务相似度的时候,大多数核心业务文本中80%的分词与输入关键词的相似度往往不是很高,另外的20%才与输入关键词是高度相似的。
[0008]然而帕累托定律并没有一个严格遵守的数学表达式,因此文本的每一个分词与输入关键词的相似度在整个文本与输入关键词相似度的贡献占比具体是多少,需要定量研究,才能得到更加准确的相似度匹配结果。

技术实现思路

[0009]本专利技术所要解决的技术问题是,针对现有技术不足,提供一种企业业务数据分词权重优化方法、智能匹配方法及系统,提高企业业务数据与输入关键词的语义匹配准确率。
[0010]为解决上述技术问题,本专利技术所采用的技术方案是:一种企业业务数据分词权重优化方法,包括:
[0011]S1、统计数据集中每条数据的分词数量c,构建分词数量的集合C;所述数据集由多条企业业务数据构成;
[0012]S2、对于集合C中的每个元素,归纳出Q个不同业务类型的关键词作为输入词,并从所述数据集中分别获取N个与所述输入词匹配的匹配结果,并按照匹配程度对所述匹配结果排序;
[0013]S3、初始化分词权重,将初始化后的权重作为初始化粒子位置,同时随机初始化粒子的速度v;
[0014]S4、计算每个粒子的适应度值f;
[0015]S5、利用所述适应度值f更新粒子速度和位置,重新计算每个粒子的最优适应度值;
[0016]S6、比较所有粒子的最优适应度值,获取种群的最优适应度值;
[0017]S7、判断是否满足结束条件,若是,则输出分词数量为c的权重优化结果;否则,返回步骤S4。
[0018]考虑到不同企业的核心业务分词数量不是定值,本专利技术采用不定群粒子优化方法,可以优化不定量的粒子群,使得本专利技术的方法可以适用于多种情况,提高了企业业务数据与输入关键词的语义匹配准确率,增强了文本匹配能力,实现了输入关键字与数据库中企业核心业务特征的有效匹配。
[0019]本专利技术中,为了进一步提高企业业务数据与输入关键词的匹配准确率,步骤S3中,
初始化分词权重的具体实现过程包括:
[0020]1)对于企业集合中每个企业的核心业务数据分词,计算所述核心业务数据分词与用户输入的关键词之间的相似度,将所有相似度数据存入列表S
j

[0021]2)对S
j
进行倒排序得到遵循Pareto法则,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种企业业务数据分词权重优化方法,其特征在于,包括:S1、统计数据集中每条数据的分词数量c,构建分词数量的集合C;所述数据集由多条企业业务数据构成;S2、对于集合C中的每个元素,归纳出Q个不同业务类型的关键词作为输入词,并从所述数据集中分别获取N个与所述输入词匹配的匹配结果,并按照匹配程度对所述匹配结果排序;S3、初始化分词权重,将初始化后的权重作为初始化粒子位置,同时随机初始化粒子的速度v;S4、计算每个粒子的适应度值f;S5、利用所述适应度值f更新粒子速度和位置,重新计算每个粒子的最优适应度值;S6、比较所有粒子的最优适应度值,获取种群的最优适应度值;S7、判断是否满足结束条件,若是,则输出分词数量为c的权重优化结果;否则,返回步骤S4。2.根据权利要求1所述的企业业务数据分词权重优化方法,其特征在于,步骤S3中,初始化分词权重的具体实现过程包括:1)对于企业集合中每个企业的核心业务数据分词,计算所述核心业务数据分词与用户输入的关键词之间的相似度,将所有相似度数据存入列表S
j
;2)对S
j
进行倒排序得到遵循Pareto法则,对中排前M%的相似度均赋予第一权重,其余相似度的则均赋予第二权重;3)将加权后的相似度值存入列表S;4)对S进行倒排序,得到初始化后的分词权重列表。3.根据权利要求2所述的企业业务数据分词权重优化方法,其特征在于,步骤1)之前,还包括:对已有企业业务文本数据进行词到词向量的...

【专利技术属性】
技术研发人员:黄雪芹肖辉谭帅雨蛟潘亮廖朋坤
申请(专利权)人:北京聚创造网络科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1