一种融合多算法模型的竞争对手挖掘方法技术

技术编号:38991805 阅读:27 留言:0更新日期:2023-10-07 10:22
本发明专利技术公开了一种融合多算法模型的竞争对手挖掘方法,其特征在于,分别通过第一种模型、第二种模型以及第三种模型获得目标企业的竞争对手结果,然后将得到的竞争对手结果进行融合得到最终的竞争对手排名。本发明专利技术提出了一种针对企业不同维度信息,结合数据源特点综合运用多种算法进行竞争对手挖掘并进行模型融合的方法。在项目实践中证明了该方案的可行性和有效性。避免了只对某一行业的企业仅使用其中一个维度信息进行单独挖掘带来的片面性和低效性。低效性。低效性。

【技术实现步骤摘要】
一种融合多算法模型的竞争对手挖掘方法


[0001]本专利技术涉及基于企业多维度信息,融合多种算法模型的竞争对手挖掘方法,属于信息检索、自然语言处理、知识图谱、知识发现、竞争情报等


技术介绍

[0002]竞争对手的挖掘是企业竞争情报工作的关键一环,是企业管理人员关注竞争动态并据此制定竞争战略的重要前提,对于事先防范可能的竞争对手或者主动对竞争对手发起攻击具有重要意义。在日渐激烈的市场竞争环境下,从众多竞争参与者中识别出主要竞争对手并对其进行优先级排序,明确企业自身在市场竞争环境中所处的位置,对于企业合理分配有限的人力、物力及财力资源至关重要,甚至关系到企业的生存于发展。
[0003]对于每家企业而言,行业中存在着众多的参与者,但并非每一个参与者都是企业的竞争对手。竞争对手是指在企业所处的行业中,与该企业在资源、产品或服务等方面具有高度相似性,与该企业争夺市场或客户,对该企业已经或可能造成威胁的任何企业。
[0004]关于竞争对手的划分,我们可以将其分为两大类,一是现有竞争对手,二是潜在竞争对手。企业的现有竞争对手主要可分本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合多算法模型的竞争对手挖掘方法,其特征在于,分别通过第一种模型、第二种模型以及第三种模型获得目标企业的竞争对手结果,然后将得到的竞争对手结果进行融合得到最终的竞争对手排名,其中:第一种模型针对新闻、公告、研报类数据,采用信息抽取算法,直接从非结构化文本描述中抽取已是既定事实的竞争对手关系,获得竞争对手结果;第二种模型基于图学习的链接预测方法,通过对企业可抽象为实体的部分维度信息进行联合建模,通过结合所有信息以及部分已有的竞争对手关系作为监督信号让第二种模型学习每家企业的向量表征,从而让第二种模型泛化到其他企业,判断出任意两家企业之间是否存在竞争关系,获得竞争对手结果;第三种模型是基于企业标签的文本向量匹配模型,通过互联网上公开的关于企业简介的相关信息进行企业标签抽取,然后使用Bert编码器对所有的标签词进行向量编码,进而通过标签向量得到企业向量,最后通过计算企业向量相似度得到每家企业的竞争对手结果。2.如权利要求1所述的一种融合多算法模型的竞争对手挖掘方法,其特征在于,所述第一种模型采用实体识别模型进行实体识别,并利用关系抽取模型进行关系识别,将训练好的实体识别模型以及关系抽取模型部署为实时抽取服务,将每天出现在新闻、公告、研报类数据中的竞争对手关系实时抽取入库,其中:对关系抽取模型进行训练包括以下步骤:步骤1、数据准备:对新闻、公告、研报的原始文件进行解析,得到纯文本类型的数据;然后对所有数据进行分句处理,通过包含“竞争”关系的关键词召回蕴含竞争对手关系的句子;步骤2、数据预处理对召回的含有竞争关系的句子进行数据预处理,只保留中英文及数字,去掉其他字符,并对英文大小写字母进行统一转换,同时,在每个句子的前面拼接文章标题以获取指代词所对应的主体企业;步骤3、人工标注对步骤2中预处理得到的候选句子进行逐一标注;步骤4、基于步骤3得到的人工标注的候选句子构建训练集对关系抽取模型进行训练,关系抽取模型通过独立处理输入文本中的每一对实体跨度,并在输入层插入特殊的类型标记来突出主语或宾语及其类型:设给定一个输入句子X和一对主语与宾语的实体跨度s
i
,s
j
,其中s
i
、s
j
各自对应的实体类型为e
i
、e
j
,e
i
,e
j
∈ε∪{
ϵ
},定义四种文本标记符:

S:e
i

,

/S:e
i

,

O:e
i



/O:e
j

,分别将他们插入到所输入句子的主语和宾语的前后,用来表示修改后的输入序列,则有:式中,表示输入序列中对应的头实体(主语)序列,表示输入序列中对应的尾实体(宾语)序列;将以上修改后的输入序列输入到预训练编码器中并输出对应的向量表示,将两个
起始位置的输出向量进行拼接从而得到主语

宾语对所对应的向量表征h
r
(s
i
,s
j
),如下式所示:式中,和分别是中

S:e
i



O:e
i

所对应的索引,和分别表示中

S:e
i



O:e
i

所对应的向量;向量表征h
r
(s
i
,s
j
)被输入到前馈神经网络中来计算所属关系集合r∈R∪{
ϵ
}:P
r (r|s
i
,s
j
)的概率分布,其中,P
r (r|s
i
,s
j
) 表示模型预测所属关系类型为r的概率;在训练过程中,使用交叉熵损失函数来对预训练模型进行微调,如下式所示:式中,表示训练数据集中两个实体跨度s
i
,s
j
所对应的真实关系类型,S
G
表示实体s
i
, s
j
所属的真实实体类型,表示关系抽取模型预测实体跨度s
i
,s
j
所对应的真实关系类型的概率分布。3.如权利要求1所述的一种融合多算法模型的竞争对手挖掘方法,其特征在于,所述第三种模型的实现包括以下步骤:步骤A、数据准备:从公司企业数据库中抽取出企业简介相关的文本简介数据,对所有文本简介数据进行预处理;步骤B、企业标签提取:从企业的简介文本中提取出业务相关词汇,定义为产品词,包括以下步骤:步骤B01、通过命名实体识别模型识别产品词;步骤B02、利用基于Bert的关键词抽取模型对命名实体识别模型输出的识别结果进行补全,得到每家企业最终的产品标签及其权重;步骤C、通过企业标签向量得到企业向量通过步骤B得到每家企业的产品标签后,使用基于公司产品标签层级分类树微调后得到的Bert模型对所有产品标签进行向量编码,得到所有企业标签的向量后,基于每家企业的产品标签所对应的权重,通过对一家企...

【专利技术属性】
技术研发人员:朱悬宁张锐陈朋
申请(专利权)人:上海万得宏汇信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1