一种多维智能识别的化学物品搜索显示方法技术

技术编号:37454072 阅读:38 留言:0更新日期:2023-05-06 09:26
本发明专利技术涉及化学品搜索的技术领域,揭露了一种多维智能识别的化学物品搜索显示方法,所述方法包括:基于向量化表示的化学品特征描述信息构建轻量化化学品知识库;利用Nesterov动量加速方法对用户搜索兴趣识别模型进行优化求解;获取用户搜索的化学品特征描述数据并进行向量化表示,将向量化表示结果输入到最优用户搜索兴趣识别模型中得到的用户搜索以及感兴趣的化学品名称向量,并从轻量级化学品知识库中搜索该化学品的相关信息反馈给用户。本发明专利技术基于所构建的轻量化化学品知识库对用户搜索内容进行精确查找,并利用用户搜索兴趣识别模型对用户历史搜索信息进行预测,实现用户感兴趣的化学品名称以及相关信息的预测查找。兴趣的化学品名称以及相关信息的预测查找。兴趣的化学品名称以及相关信息的预测查找。

【技术实现步骤摘要】
一种多维智能识别的化学物品搜索显示方法


[0001]本专利技术涉及化学品搜索的
,尤其涉及一种多维智能识别的化学物品搜索显示方法。

技术介绍

[0002]化学品具有专业程度高,名称复杂并且存在极大相似性的特点,对普通民众而言无法直接确定化学品名称并进行搜索,只能针对化学品的部分特性、甚至只有部分用途进行描述,导致无法直接返回给用户准确的化学品信息。针对该问题,本专利技术提出一种多维智能识别的化学物品搜索显示方法,对不同的化学物品利进行轻量化建模,用户通过输入或者采集待搜索物品描述信息并发送到后台,后台根据收集的信息和构建好的化学物品轻量化模型库进行决策判断,精确返回客户查询的物品信息。

技术实现思路

[0003]有鉴于此,本专利技术提供一种多维智能识别的化学物品搜索显示方法,目的在于:1)将不同化学品文本数据转换为实体形式,将化学品名称作为实体,构建化学品名称与相关特征描述信息的图结构,形成轻量化化学品知识库,并对轻量化化学品知识库中的化学品特征描述信息进行向量化表示,在向量表示过程中,引入不同实体类型的注意力机制对化学品本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多维智能识别的化学物品搜索显示方法,其特征在于,所述方法包括:S1:采集化学品文本数据,并对采集的化学品文本数据进行命名实体识别,得到化学品特征描述信息,并基于化学品特征描述信息构建轻量化化学品知识库;S2:对轻量化化学品知识库中的化学品特征描述信息进行向量化表示;S3:构建用户搜索兴趣识别模型,所构建模型以用户输入的化学品描述特征信息向量表示结果为输入,以预测化学品名称向量为输出;S4:利用Nesterov动量加速方法对构建得到的用户搜索兴趣识别模型进行优化求解,得到最优用户搜索兴趣识别模型;S5:获取用户搜索的化学品特征描述数据并进行向量化表示,将向量化表示结果输入到最优用户搜索兴趣识别模型中得到的用户搜索的化学品名称向量,并从轻量级化学品知识库中搜索该化学品的相关信息反馈给用户。2.如权利要求1所述的一种多维智能识别的化学物品搜索显示方法,其特征在于,所述S1步骤中采集化学品文本数据,并对采集的化学品文本数据进行命名实体识别,得到化学品特征描述信息,包括:采集化学品文本数据,其中所采集化学品文本数据的形式为:{化学品名称:化学品描述语句},其中化学品描述语句为描述化学品类别、化学品基本构成、成分/组成信息、危险性概述、急救措施以及消防措施的语句;分别构建不同类型化学品描述语句的实体划分词典,将实体划分词典中的实体标记词对化学品描述语句中的词语进行匹配,得到匹配成功词语后的衔接词句,利用词语累积概率对衔接词句进行分词,得到实体在对应实体类型的描述,其中衔接词句的分词流程为:S11:按顺序将衔接词句切分为若干候选词,其中候选词的长度范围为大于等于1,若候选词的长度大于1,需要该候选词在化学品文本数据出现的频数大于1;S12:计算衔接词句中每个候选词在所采集化学品文本数据中出现的频率,并将每个候选词的累积频率设置为0;S13:计算衔接词句中每个候选词的累积频率:p

(n)=p

(n

1)p(n)其中:p

(n

1)表示衔接词句中第n

1个候选词的累积频率,p(n)表示衔接词句中第n个候选词在所采集化学品文本数据中出现的频率;S14:从最后一个候选词开始向前遍历,遍历最后一个候选词的前驱词,并比较候选词的每个前驱词的累积概率,选取累积概率最大的前驱词作为该候选词的最佳前驱词;S15:将最佳前驱词作为最后一个候选词,返回步骤S14,直到遍历完衔接词句,将所有最佳前驱词作为分词结果;将分词结果作为对应实体的实体类型描述,得到化学品文本数据的命名实体识别结果,将命名实体识别结果作为化学品特征描述信息,其中实体为化学品名称,对应实体的实体类型包括化学品类别、化学品基本构成、成分/组成信息、危险性概述、急救措施以及消防措施,实体类型下的实体类型描述为分词结果。3.如权利要求2所述的一种多维智能识别的化学物品搜索显示方法,其特征在于,所述S1步骤中基于化学品特征描述信息构建轻量化化学品知识库,包括:
不同化学品的化学品特征描述信息集合为:{(A
m
,S
m,j
,C
m,j
)|m∈[1,M],j∈[1,6]}其中:A
m
表示第m种化学品的化学品名称,S
m,j
表示第m种化学品的第j种实体类型,j∈[1,6],依次为化学品类别、化学品基本构成、成分/组成信息、危险性概述、急救措施以及消防措施;C
m,j
表示第m种化学品的第j种实体类型对应的实体类型描述;基于不同化学品的化学品特征描述信息构建轻量化化学品知识库,其中轻量化化学品知识库的结构为G=((A,C),S),G表示轻量化化学品知识库的图网络结构,(A,C)表示图网络结构中的点,A表示化学品名称,C表示化学品的实体类型描述,S表示图网络结构中不同类型的点之间的连线,对应化学特征描述信息中的实体类型,化学品名称与对应化学品的实体类型描述通过实体类型连接,构成一组化学特征描述信息将所有化学特征描述信息嵌入到图网络结构中,得到轻量化化学品知识库。4.如权利要求3所述的一种多维智能识别的化学物品搜索显示方法,其特征在于,所述S2步骤中对所构建轻量化化学品知识库中的化学品特征描述信息进行向量化表示,包括:对所构建轻量化化学品知识库中的化学品特征描述信息进行向量化表示,其中向量化表示流程为:S21:构建6个长度为6的编码序列,初始编码序列中的每个值均为0,按照实体类型顺序对轻量化化学品知识库中的实体类型进行编码,其中第j种实体类型对应的编码结果为:将编码序列中的第j个值标记为1;S22:利用BERT模型对轻量化化学品知识库中的点进行词向量编码,得到不同点的词向量编码序列,其中轻量化化学品知识库中的点包含化学品名称以及化学品的实体类型描述;S23:基于实体类型编码结果对轻量化化学品知识库中化学品名称的词向量编码序列进行基于注意力机制的加权表示:进行基于注意力机制的加权表示:其中:T表示转置;W表示参数矩阵,b表示偏置向量,ReLU(
·
)表示激活函数,c
A
表示轻量化...

【专利技术属性】
技术研发人员:李强王宏杨靖
申请(专利权)人:上海朗晖慧科技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1