基于语义模型的行业树产品词生成方法、装置及相关组件制造方法及图纸

技术编号:37223227 阅读:6 留言:0更新日期:2023-04-20 23:08
本发明专利技术公开了一种基于语义模型的行业树产品词生成方法、装置及相关组件,涉及人工智能领域。该方法包括获取待细分类的行业词样本集和预标记的产品词样本集;将所述待细分类的行业词样本集输入预搭建的UNILM模型进行训练,得到训练后的UNILM模型,其中,利用损失函数对所述UNILM模型的参数进行优化;将所述预标记的产品词样本集输入所述训练后的UNILM模型进行微调,得到产品词生成模型;利用所述产品词生成模型对输入的行业词文本进行预测,并基于预设的输出规则,输出产品词。该方法利用搭建的UNILM模型可以快速生成企业对应的产品词,且精确度较高。且精确度较高。且精确度较高。

【技术实现步骤摘要】
基于语义模型的行业树产品词生成方法、装置及相关组件


[0001]本专利技术涉及人工智能领域,尤其涉及一种基于语义模型的行业树产品词生成方法、装置及相关组件。

技术介绍

[0002]目前国民经济行业分类是国民经济统计标准,需要将每个企业分类到所属行业,其中,当前的国民经济业务只分类到5级,即,每个企业最多被分配到4级,而没有具体的产品,例如A公司,1级分类属于制造业,2级分类属于电气机械和器材制造业,3级分类属于电池制造,4级分类属于锂离子电池制造,5级分类为锂离子电池制造,其中,5级属于行业词。
[0003]换言之,用户无法根据上述分类,了解企业当前的产品制造,故通常去该企业的官网进行查看并分类,对此,专利技术人认为,通过人工标注分类得到6级产品词的方式需要耗时较长。

技术实现思路

[0004]本专利技术的目的是提供一种基于语义模型的行业树产品词生成方法、装置及相关组件,旨在解决现有人工标注分类得到6级产品词的方式耗时较长的问题。
[0005]为解决上述技术问题,本专利技术的目的是通过以下技术方案实现的:提供一种基于语义模型的行业树产品词生成方法,其包括:获取待细分类的行业词样本集和预标记的产品词样本集;将所述待细分类的行业词样本集输入预搭建的UNILM模型进行训练,得到训练后的UNILM模型,其中,利用损失函数对所述UNILM模型的参数进行优化;将所述预标记的产品词样本集输入所述训练后的UNILM模型进行微调,得到产品词生成模型;利用所述产品词生成模型对输入的行业词文本进行预测,并基于预设的输出规则,输出产品词。
[0006]进一步的,所述将所述待细分类的行业词样本集输入预搭建的UNILM模型进行训练之前,包括:从所述待细分类的行业词样本集选取其中一个行业词样本,将所述行业词样本进行分词处理,得到由多个单独的文字序列构成的行业词序列;对其中一个所述文字序列进行掩码处理,并在所述行业词序列之前插入第一标签符号,并在所述行业词序列之后插入第二标签符号;将处理后的所述行业词序列输入至Segment Embedding层,依次经过Pssition Embedding层和Token Embedding层,以得到可输入UNILM模型的文字向量。
[0007]进一步的,所述将所述待细分类的行业词样本集输入预搭建的UNILM模型进行训练,包括:将得到的文字向量输入依次相连接的12层Transformer block层,以对预搭建的
UNILM模型进行训练,其中,各Transformer block层均包含encoder模块,各所述encoder模块包含self

Attention层,前馈神经网络层和归一化标准层。
[0008]进一步的,所述利用损失函数对所述UNILM模型的参数进行优化,包括:利用交叉熵损失函数对所述UNILM模型的参数进行优化。
[0009]另外,本专利技术要解决的技术问题是还在于提供一种基于语义模型的行业树产品词生成装置,其包括:数据准备单元,用于获取待细分类的行业词样本集和预标记的产品词样本集;训练单元,用于将所述待细分类的行业词样本集输入预搭建的UNILM模型进行训练,得到训练后的UNILM模型,其中,利用损失函数对所述UNILM模型的参数进行优化;微调单元,用于将所述预标记的产品词样本集输入所述训练后的UNILM模型进行微调,得到产品词生成模型;预测单元,用于利用所述产品词生成模型对输入的行业词文本进行预测,并基于预设的输出规则,输出产品词。
[0010]进一步的,还包括以下单元:预处理单元,用于从所述待细分类的行业词样本集选取其中一个行业词样本,将所述行业词样本进行分词处理,得到由多个单独的文字序列构成的行业词序列;掩码单元,用于对其中一个所述文字序列进行掩码处理,并在所述行业词序列之前插入第一标签符号,并在所述行业词序列之后插入第二标签符号;向量处理单元,用于将处理后的所述行业词序列输入至Segment Embedding层,依次经过Pssition Embedding层和Token Embedding层,以得到可输入UNILM模型的文字向量。
[0011]进一步的,所述训练单元包括以下子单元:训练子单元,用于将得到的文字向量输入依次相连接的12层Transformer block层,以对预搭建的UNILM模型进行训练,其中,各Transformer block层均包含encoder模块,各所述encoder模块包含self

Attention层,前馈神经网络层和归一化标准层。
[0012]进一步的,所述训练单元包括以下子单元:优化子单元,用于利用交叉熵损失函数对所述UNILM模型的参数进行优化。
[0013]另外,本专利技术实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于语义模型的行业树产品词生成方法。
[0014]另外,本专利技术实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于语义模型的行业树产品词生成方法。
[0015]本专利技术实施例公开了一种基于语义模型的行业树产品词生成方法、装置及相关组件,其中,方法包括:获取待细分类的行业词样本集和预标记的产品词样本集;将所述待细分类的行业词样本集输入预搭建的UNILM模型进行训练,得到训练后的UNILM模型,其中,利用损失函数对所述UNILM模型的参数进行优化;将所述预标记的产品词样本集输入所述训练后的UNILM模型进行微调,得到产品词生成模型;利用所述产品词生成模型对输入的行业词文本进行预测,并基于预设的输出规则,输出产品词。该方法利用UNILM模型可以快速生
成对应的产品词,且精确度较高。
附图说明
[0016]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1为本专利技术实施例提供的基于语义模型的行业树产品词生成方法的流程示意图;图2为本专利技术实施例提供的基于语义模型的行业树产品词生成方法的掩码示意图;图3为本专利技术实施例提供的基于语义模型的行业树产品词生成装置的示意性框图;图4为本专利技术实施例提供的计算机设备的示意性框图。
具体实施方式
[0018]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0019]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和
ꢀ“
包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义模型的行业树产品词生成方法,其特征在于,包括:获取待细分类的行业词样本集和预标记的产品词样本集;将所述待细分类的行业词样本集输入预搭建的UNILM模型进行训练,得到训练后的UNILM模型,其中,利用损失函数对所述UNILM模型的参数进行优化;将所述预标记的产品词样本集输入所述训练后的UNILM模型进行微调,得到产品词生成模型;利用所述产品词生成模型对输入的行业词文本进行预测,并基于预设的输出规则,输出产品词。2.根据权利要求1所述的基于语义模型的行业树产品词生成方法,其特征在于,所述将所述待细分类的行业词样本集输入预搭建的UNILM模型进行训练之前,包括:从所述待细分类的行业词样本集选取其中一个行业词样本,将所述行业词样本进行分词处理,得到由多个单独的文字序列构成的行业词序列;对其中一个所述文字序列进行掩码处理,并在所述行业词序列之前插入第一标签符号,并在所述行业词序列之后插入第二标签符号;将处理后的所述行业词序列输入至Segment Embedding层,依次经过Pssition Embedding层和Token Embedding层,以得到可输入UNILM模型的文字向量。3.根据权利要求2所述的基于语义模型的行业树产品词生成方法,其特征在于,所述将所述待细分类的行业词样本集输入预搭建的UNILM模型进行训练,包括:将得到的文字向量输入依次相连接的12层Transformer block层,以对预搭建的UNILM模型进行训练,其中,各Transformer block层均包含encoder模块,各所述encoder模块包含self

Attention层,前馈神经网络层和归一化标准层。4.根据权利要求2所述的基于语义模型的行业树产品词生成方法,其特征在于,所述利用损失函数对所述UNILM模型的参数进行优化,包括:利用交叉熵损失函数对所述UNILM模型的参数进行优化。5.一种基于语义模型的行业树产品词生成装置,其特征在于,包括:数据准备单元,用于获取待细分类的行业词样本集和预标记的产品词样本集;训练单元,用于将所述待细分类的行业词样本集输入预搭建的UNILM模型进行训练,得到训...

【专利技术属性】
技术研发人员:蔡青山
申请(专利权)人:企知道网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1