本发明专利技术提供的一种基于自然语言处理的化学品竞品选择方法,所述选择方法包括:构建化学品关键基团名称数据集,包括:无效字符集、可触达化学品名称集;获取新化学品名称;所述化学品名称分词器对所述新化学品名称进行分词,获得分词结果;过滤所述分词结果中的所述无效字符集,获得有效分词结果;基于TfidfVectorizer,化学品与所述可触达化学品名库构建化学品名词向量空间;计算所述化学品名词向量空间与所述新化学品名称间的三角余弦函数值,并将所述余弦函数值按降序进行排列;对各区间进行抽样选择,返回抽样结果对应的化学品关键基团名称数据集。能够在0.5秒内给出准确的化学品名参考,且满足专业人员对参考产品名的选择要求。考产品名的选择要求。考产品名的选择要求。
【技术实现步骤摘要】
一种基于自然语言处理的化学品竞品选择方法
[0001]本专利技术涉及人工智能
,尤其涉及一种基于自然语言处理的化学品竞品选择方法。
技术介绍
[0002]随着人工智能和互联网发展,产品相似性识别在互联网平台运作和日常生活中发挥着越来越重要的作用。自然语言处理技术成为了机器读取传统知识的一种重要方式,主要包括语意分析和语意识别两大部分。
[0003]在产品定价领域,重点在于参考产品的选择,传统的方法主要通过生产工艺知识,确定生产所需原材料,根据原材料的市场价格进行产品定价,这种方法收到人员知识的限制,无法快速选择近似产品,B2B平台的对大规模产品定价参考产品的选择。
技术实现思路
[0004]鉴于上述问题,提出了本专利技术以便提供克服上述问题或者至少部分地解决上述问题的一种基于自然语言处理的化学品竞品选择方法。
[0005]根据本专利技术的一个方面,提供了一种基于自然语言处理的化学品竞品选择方法,所述选择方法包括:
[0006]构建化学品关键基团名称数据集,包括:无效字符集、可触达化学品名称集;
[0007]根据所述化学品关键基团名称数据集基于jieba分词构建化学品名称分词器和化学品名称无效字符过滤器;
[0008]获取新化学品名称;
[0009]所述化学品名称分词器对所述新化学品名称进行分词,获得分词结果;
[0010]过滤所述分词结果中的所述无效字符集,获得有效分词结果;
[0011]基于TfidfVectorizer,化学品与所述可触达化学品名库构建化学品名词向量空间;
[0012]计算所述化学品名词向量空间与所述新化学品名称间的三角余弦函数值,并将所述余弦函数值按降序进行排列;
[0013]对各区间进行抽样选择,返回抽样结果对应的化学品关键基团名称数据集。
[0014]可选的,所述构建化学品关键基团名称数据集,包括:无效字符集、可触达化学品名称集具体包括:
[0015]搜集化学品名中表示化学结构集团的字符,获得多种化学结构基团名称,保存至化学品基团数据库;
[0016]搜集常用文本表达中的语气助词,并保存至无效字符集;
[0017]搜集化学品名称中用于标记基团位置词,并保存至所述无效字符集;
[0018]搜集满足每周均可获得价格数据的化学品名称,保存至可触达化学品名称集。
[0019]可选的,所述根据所述化学品关键基团名称数据集基于jieba分词构建化学品名
称分词器具体包括:
[0020]抽取所述化学品关键基团名称数据集中的基团名称保存至基团字典;
[0021]利用jieba分词的“自定义词典”,建立分词模型,作为化学品名称分词器。
[0022]可选的,所述根据所述化学品关键基团名称数据集基于jieba分词构建化学品名称无效字符过滤器具体包括:
[0023]抽取无效字符库中的字符,保存为无效字符词典;
[0024]利用编码程序,读取无效字符词典,编辑为无效字符过滤器。
[0025]可选的,所述化学品名称分词器对所述新化学品名称进行分词,获得分词结果具体包括:
[0026]利用所述化学品名称分词器对所述新化学品名称进行分词操作;
[0027]收集分词后的结果集合,获得分词结果。
[0028]可选的,所述过滤所述分词结果中的无效字符,获得有效分词结果具体包括:
[0029]无效字符过滤器去除分词结果集合中的无效字符,保存为新化学品分词序列,获得有效分词结果。
[0030]可选的,所述基于TfidfVectorizer,化学品与可触达化学品名库构建化学品名词向量空间具体包括:
[0031]从所述可触达化学品名库提取产品名称,保存为可触达产品字典;
[0032]利用所述化学品名称分词器对所述可触达产品字典中的产品名称进行分词,将分词结果保存为可触达分词序列;
[0033]利用所述无效字符过滤器去除所述可触达分词序列中的无效字符,并保存为新可触达分词序列;
[0034]利用TfidfVectorizer算法将所述新可触达分词序列和所述新化学品分词序列分布至化学品名词向量空间。
[0035]可选的,所述计算所述化学品名词向量空间与所述新化学品名称间的三角余弦函数值,并将所述余弦函数值按降序进行排列具体包括:
[0036]获取各个化学品名在TfidfVectorizer词向量空间中的坐标值(x,y);
[0037]使用公式计算所述新化学品分词序列与所述可触达分词序列词向量间的相似性数值;
[0038]保留词向量序号与词向量相似值组成数值列表;
[0039]将所述数值列表中的词向量相似值按照降序排列。
[0040]可选的,所述对各区间进行抽样选择,返回抽样结果对应的化学品关键基团名称数据集具体包括:
[0041]获取词向量相似值大于0.5对应的词向量序号1到5个;
[0042]获取词向量相似值小于0.5对应的词向量序号0到2个;
[0043]根据取出的所述词向量序号提取可触达化学品名,并组成可触达化学品名字典;
[0044]将所述可触达化学品名字典保存为文本文档。
[0045]本专利技术提供的一种基于自然语言处理的化学品竞品选择方法,所述选择方法包括:构建化学品关键基团名称数据集,包括:无效字符集、可触达化学品名称集;根据所述化
学品关键基团名称数据集基于jieba分词构建化学品名称分词器和化学品名称无效字符过滤器;获取新化学品名称;所述化学品名称分词器对所述新化学品名称进行分词,获得分词结果;过滤所述分词结果中的所述无效字符集,获得有效分词结果;基于TfidfVectorizer,化学品与所述可触达化学品名库构建化学品名词向量空间;计算所述化学品名词向量空间与所述新化学品名称间的三角余弦函数值,并将所述余弦函数值按降序进行排列;对各区间进行抽样选择,返回抽样结果对应的化学品关键基团名称数据集。能够在0.5秒内给出准确的化学品名参考,且满足专业人员对参考产品名的选择要求。
[0046]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0047]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0048]图1为本专利技术实施例提供的一种基于自然语言处理的化学品竞品选择方法流程图;
[0049]图2为本专利技术实施例提供的一种基于自然语言处理的化学品竞品选择方法细节流程框图。
具体实施方式
[0050]下面将参照附图更详细地本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于自然语言处理的化学品竞品选择方法,其特征在于,所述选择方法包括:构建化学品关键基团名称数据集,包括:无效字符集、可触达化学品名称集;根据所述化学品关键基团名称数据集基于jieba分词构建化学品名称分词器和化学品名称无效字符过滤器;获取新化学品名称;所述化学品名称分词器对所述新化学品名称进行分词,获得分词结果;过滤所述分词结果中的所述无效字符集,获得有效分词结果;基于TfidfVectorizer,化学品与所述可触达化学品名库构建化学品名词向量空间;计算所述化学品名词向量空间与所述新化学品名称间的三角余弦函数值,并将所述余弦函数值按降序进行排列;对各区间进行抽样选择,返回抽样结果对应的化学品关键基团名称数据集。2.根据权利要求1所述的一种基于自然语言处理的化学品竞品选择方法,其特征在于,所述构建化学品关键基团名称数据集,包括:无效字符集、可触达化学品名称集具体包括:搜集化学品名中表示化学结构集团的字符,获得多种化学结构基团名称,保存至化学品基团数据库;搜集常用文本表达中的语气助词,并保存至无效字符集;搜集化学品名称中用于标记基团位置词,并保存至所述无效字符集;搜集满足每周均可获得价格数据的化学品名称,保存至可触达化学品名称集。3.根据权利要求1所述的一种基于自然语言处理的化学品竞品选择方法,其特征在于,所述根据所述化学品关键基团名称数据集基于jieba分词构建化学品名称分词器具体包括:抽取所述化学品关键基团名称数据集中的基团名称保存至基团字典;利用jieba分词的“自定义词典”,建立分词模型,作为化学品名称分词器。4.根据权利要求1所述的一种基于自然语言处理的化学品竞品选择方法,其特征在于,所述根据所述化学品关键基团名称数据集基于jieba分词构建化学品名称无效字符过滤器具体包括:抽取无效字符库中的字符,保存为无效字符词典;利用编码程序,读取无效字符词典,编辑为无效字符过滤器。5.根据权利要求1所述的一种基于自然语言处理的化学品竞品选择方法,其特征在于,所述化学品名称分词器...
【专利技术属性】
技术研发人员:田胜伟,李浩林,
申请(专利权)人:上海芯化和云数据科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。