【技术实现步骤摘要】
工业品实体数字化描述方法和系统
[0001]本专利技术涉及数据处理
,具体地,涉及一种工业品实体数字化描述方法和系统。
技术介绍
[0002]在传统的工业品行业,不同工业品公司对同一物料或商品可能会根据公司自身的原因对本质上一样的工业品赋予不同的名字,这样就给双方在进行工业品交易的时候,带来了极大的困难,为此,就需要对工业品行业有很深理解的行业专家来人工的进行识别。
[0003]为此,本系统旨在解决因买卖双方对工业品的定义存在差异,而导致商业关系匹配困难的痛点问题。所以,本系统实现了不同描述下商品匹配的通用核心技术组件,不同数字化场景均会使用本系统。
[0004]专利文献CN110968685A(申请号:CN201811126406.9)公开了一种商品名称的归集方法和装置。根据商品描述的相似度,对商品描述进行领域归类;对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词;基于能归集处理的商品描述中的商品词,标注不能归集处理的商品描述中的商品词序列,确定每个不能归集处理的商 ...
【技术保护点】
【技术特征摘要】
1.一种工业品实体数字化描述方法,其特征在于,包括:步骤1:获取在售工业品数据,并将获取的工业品数据作为待匹配工业品的匹配源和命名的标准;步骤2:构建训练数据集,用于数学向量训练和行业词典构建;步骤3:对训练数据集进行预处理,根据行业词典将工业品的文本数据进行分词,并去停用词;步骤4:对预处理后的文本数据进行模型实验和测试,得到将匹配源工业品数据进行数学向量化的模型;步骤5:将待匹配的工业品在匹配源中进行匹配,若匹配到对应结果,则直接输出;若没有匹配到对应结果,则利用数学向量化模型进行编码,根据编码后的匹配源数据计算相似度,得到相似度最高的工业品数据并进行输出。2.根据权利要求1所述的工业品实体数字化描述方法,其特征在于,在计算相似度的过程中,采用余弦相似度计算,公式为:其中,similarity(A,B)表示余弦相似度;A表示目标用户的行为向量;B表示除目标用户的行为向量;A
·
B表示向量A和向量B的内积;||A||表示向量A的模;||B||表示向量B的模;n表示向量的分量数;i表示向量的第i个分量;A
i
表示向量A的第i个分量;B
i
表示向量B的第i个分量;根据相似度计算结果,对相似度最高的工业品数据进行工业品推荐。3.根据权利要求1所述的工业品实体数字化描述方法,其特征在于,采用Word2vec模型对工业品的文本数据进行数学向量化编码,Word2vec模型的框架根据文本数据输入输出的不同,包括CBOW模型和Skip
‑
gram模型;所述CBOW模型根据当前文本的上下文预测当前文本内容;所述Skip
‑
gram模型根据当前文本内容预测上下文。4.根据权利要求1所述的工业品实体数字化描述方法,其特征在于,对训练数据集进行预处理的过程中,将工业品的文本数据进行分类提取,包括英文字母、数字和符号,然后对英文字母、数字和符号按预设规则进行组合,将组合后的字符串作为特征输入到模型中进行训练。5.根据权利要求1所述的工业品实体数字化描述方法,其特征在于,根据工业品的类别对工业品进行分类,在工业品匹配的过程中,先匹配工业品的类别,再进一步匹配工业品。6.一种工业品实体数...
【专利技术属性】
技术研发人员:朱俊,王静,朱伟,陈金明,丛淑禹,戴智鑫,
申请(专利权)人:欧冶工业品股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。