核心产品词提取方法、装置、设备及介质制造方法及图纸

技术编号:34172857 阅读:62 留言:0更新日期:2022-07-17 11:11
本发明专利技术公开了一种核心产品词提取方法、装置、设备及介质,其中,该核心产品词提取方法包括:获取企业信息文本,企业信息文本包括至少一条有效语句;采用预处理方法处理企业文本信息,以获取符合预设格式的模型输入语句;基于已训练的产品词实体抽取模型,获取模型输入语句对应的预测产品词实体,并清洗预测产品词实体以获取有效产品词实体;基于有效产品词实体和有效产品词实体对应的产品词特征维度数据,训练至少两个词语分类模型,以获取融合的词语评分模型,并通过评分模型提取符合词语分数阈值的核心产品词。该方法可保障提取真实有效的核心产品词的同时,提高了核心产品词的识别准确率和识别效率。确率和识别效率。确率和识别效率。

【技术实现步骤摘要】
核心产品词提取方法、装置、设备及介质


[0001]本专利技术涉及语言信息处理
,尤其涉及一种核心产品词提取方法、装置、设备及介质。

技术介绍

[0002]企业画像可为面向智慧城市、金融监管、企业情报以及企业评估等场景构建多级企业知识图谱,并可深度挖掘企业、高管、法人、产品以及产业链间的复杂网络关系,为企业提供企业舆情以及精准营销等多项综合服务。而企业大多是以产品为媒介,与用户进行价值交换,从而达成创造商业价值的目的,也即企业的主营产品是构建企业画像的重要参考依据。
[0003]随着互联网的蓬勃发展,与企业相关的各种类型的真伪信息越来越多地出现在互联网的多个渠道上。如何从与企业相关的多种信息中提取真实有效的核心产品信息成为亟待解决的问题。

技术实现思路

[0004]本专利技术实施例提供一种核心产品词提取方法、装置、设备及介质,以解决从与企业相关的多种信息中提取真实有效的核心产品信息的问题。
[0005]一种核心产品词提取方法,包括:获取企业信息文本,采用预处理方法处理企业信息文本,以获取符合预设格式的模型输入本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种核心产品词提取方法,其特征在于,包括:获取企业信息文本,采用预处理方法处理所述企业信息文本,以获取符合预设格式的模型输入语句;通过标注所述模型输入语句训练基于深度学习的产品词实体抽取模型;基于所述产品词实体抽取模型,获取所述模型输入语句对应的预测产品词实体,并清洗所述预测产品词实体以获取有效产品词实体;基于所述有效产品词实体和所述有效产品词实体对应的产品词特征维度数据,训练至少两个词语分类模型,以获取融合的词语评分模型,并通过所述评分模型提取符合词语分数阈值的核心产品词。2.根据权利要求1所述核心产品词提取方法,其特征在于,在所述获取企业信息文本之前,还包括:将所述企业信息文本以句式为粒度进行切分,获取至少一个待处理语句;基于句式分析模型,获取所有所述待处理语句中的无效句式;过滤掉所述企业信息文本中的无效句式,以使剩余的每一句所述待处理语句均为有效语句。3.根据权利要求1所述核心产品词提取方法,其特征在于,所述企业信息文本包括至少一条过滤掉无效句式的有效语句;所述采用预处理方法处理所述有效语句,以获取符合预设格式的模型输入语句,包括:采用长度分组切割算法和语义完整性算法分割所述有效语句,以获取符合预设长度并保持语义完整性的模型输入语句。4.根据权利要求1所述核心产品词提取方法,其特征在于,通过标注所述模型输入语句训练基于深度学习的产品词实体抽取模型,包括:采用模型输入语句及其对应的词语标注数据训练BERT

BiLSTM

CRF模型,获取所述产品词实体抽取模型,其中,所述BERT

BiLSTM

CRF模型包括:BERT预训练模型层、BiLSTM网络层以及CRF概率分布层。5.根据权利要求1所述核心产品词提取方法,其特征在于,所述清洗所述预测产品词实体以获取有效产品词实体,包括:将存在语义缺失的预测产品词实体作为目标修复词,比对前后文修复所述目标修复词以获取所述有效产品词实体;基于所述预测产品词实体在所述模型输入语句中的位置,通过比对预设词库移除存在错位或错误的预测产品词实体。6.根据权利要求1所述核心产...

【专利技术属性】
技术研发人员:曾思亮蔡子哲包智
申请(专利权)人:企知道网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1