一种基于自然语言处理的化学品竞品选择方法技术

技术编号:33134613 阅读:19 留言:0更新日期:2022-04-17 00:57
本发明专利技术提供的一种基于自然语言处理的化学品竞品选择方法,所述选择方法包括:构建化学品关键基团名称数据集,包括:无效字符集、可触达化学品名称集;获取新化学品名称;所述化学品名称分词器对所述新化学品名称进行分词,获得分词结果;过滤所述分词结果中的所述无效字符集,获得有效分词结果;基于TfidfVectorizer,化学品与所述可触达化学品名库构建化学品名词向量空间;计算所述化学品名词向量空间与所述新化学品名称间的三角余弦函数值,并将所述余弦函数值按降序进行排列;对各区间进行抽样选择,返回抽样结果对应的化学品关键基团名称数据集。能够在0.5秒内给出准确的化学品名参考,且满足专业人员对参考产品名的选择要求。考产品名的选择要求。考产品名的选择要求。

【技术实现步骤摘要】
一种基于自然语言处理的化学品竞品选择方法


[0001]本专利技术涉及人工智能
,尤其涉及一种基于自然语言处理的化学品竞品选择方法。

技术介绍

[0002]随着人工智能和互联网发展,产品相似性识别在互联网平台运作和日常生活中发挥着越来越重要的作用。自然语言处理技术成为了机器读取传统知识的一种重要方式,主要包括语意分析和语意识别两大部分。
[0003]在产品定价领域,重点在于参考产品的选择,传统的方法主要通过生产工艺知识,确定生产所需原材料,根据原材料的市场价格进行产品定价,这种方法收到人员知识的限制,无法快速选择近似产品,B2B平台的对大规模产品定价参考产品的选择。

技术实现思路

[0004]鉴于上述问题,提出了本专利技术以便提供克服上述问题或者至少部分地解决上述问题的一种基于自然语言处理的化学品竞品选择方法。
[0005]根据本专利技术的一个方面,提供了一种基于自然语言处理的化学品竞品选择方法,所述选择方法包括:
[0006]构建化学品关键基团名称数据集,包括:无效字符集、可触达化学品名称集;...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言处理的化学品竞品选择方法,其特征在于,所述选择方法包括:构建化学品关键基团名称数据集,包括:无效字符集、可触达化学品名称集;根据所述化学品关键基团名称数据集基于jieba分词构建化学品名称分词器和化学品名称无效字符过滤器;获取新化学品名称;所述化学品名称分词器对所述新化学品名称进行分词,获得分词结果;过滤所述分词结果中的所述无效字符集,获得有效分词结果;基于TfidfVectorizer,化学品与所述可触达化学品名库构建化学品名词向量空间;计算所述化学品名词向量空间与所述新化学品名称间的三角余弦函数值,并将所述余弦函数值按降序进行排列;对各区间进行抽样选择,返回抽样结果对应的化学品关键基团名称数据集。2.根据权利要求1所述的一种基于自然语言处理的化学品竞品选择方法,其特征在于,所述构建化学品关键基团名称数据集,包括:无效字符集、可触达化学品名称集具体包括:搜集化学品名中表示化学结构集团的字符,获得多种化学结构基团名称,保存至化学品基团数据库;搜集常用文本表达中的语气助词,并保存至无效字符集;搜集化学品名称中用于标记基团位置词,并保存至所述无效字符集;搜集满足每周均可获得价格数据的化学品名称,保存至可触达化学品名称集。3.根据权利要求1所述的一种基于自然语言处理的化学品竞品选择方法,其特征在于,所述根据所述化学品关键基团名称数据集基于jieba分词构建化学品名称分词器具体包括:抽取所述化学品关键基团名称数据集中的基团名称保存至基团字典;利用jieba分词的“自定义词典”,建立分词模型,作为化学品名称分词器。4.根据权利要求1所述的一种基于自然语言处理的化学品竞品选择方法,其特征在于,所述根据所述化学品关键基团名称数据集基于jieba分词构建化学品名称无效字符过滤器具体包括:抽取无效字符库中的字符,保存为无效字符词典;利用编码程序,读取无效字符词典,编辑为无效字符过滤器。5.根据权利要求1所述的一种基于自然语言处理的化学品竞品选择方法,其特征在于,所述化学品名称分词器...

【专利技术属性】
技术研发人员:田胜伟李浩林
申请(专利权)人:上海芯化和云数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1