基于语义模型的行业树产品词生成方法、装置及相关组件制造方法及图纸

技术编号：37223227 阅读：6 留言：0更新日期：2023-04-20 23:08

本发明专利技术公开了一种基于语义模型的行业树产品词生成方法、装置及相关组件，涉及人工智能领域。该方法包括获取待细分类的行业词样本集和预标记的产品词样本集；将所述待细分类的行业词样本集输入预搭建的UNILM模型进行训练，得到训练后的UNILM模型，其中，利用损失函数对所述UNILM模型的参数进行优化；将所述预标记的产品词样本集输入所述训练后的UNILM模型进行微调，得到产品词生成模型；利用所述产品词生成模型对输入的行业词文本进行预测，并基于预设的输出规则，输出产品词。该方法利用搭建的UNILM模型可以快速生成企业对应的产品词，且精确度较高。且精确度较高。且精确度较高。

全部详细技术资料下载

【技术实现步骤摘要】
基于语义模型的行业树产品词生成方法、装置及相关组件

[0001]本专利技术涉及人工智能领域，尤其涉及一种基于语义模型的行业树产品词生成方法、装置及相关组件。

技术介绍

[0002]目前国民经济行业分类是国民经济统计标准，需要将每个企业分类到所属行业，其中，当前的国民经济业务只分类到5级，即，每个企业最多被分配到4级，而没有具体的产品，例如A公司，1级分类属于制造业，2级分类属于电气机械和器材制造业，3级分类属于电池制造，4级分类属于锂离子电池制造，5级分类为锂离子电池制造，其中，5级属于行业词。
[0003]换言之，用户无法根据上述分类，了解企业当前的产品制造，故通常去该企业的官网进行查看并分类，对此，专利技术人认为，通过人工标注分类得到6级产品词的方式需要耗时较长。

技术实现思路

[0004]本专利技术的目的是提供一种基于语义模型的行业树产品词生成方法、装置及相关组件，旨在解决现有人工标注分类得到6级产品词的方式耗时较长的问题。
[0005]为解决上述技术问题，本专利技术的目的是通过以下技术方案实现的：提供一种基于语义模型的行业树产品词生成方法，其包括：获取待细分类的行业词样本集和预标记的产品词样本集；将所述待细分类的行业词样本集输入预搭建的UNILM模型进行训练，得到训练后的UNILM模型，其中，利用损失函数对所述UNILM模型的参数进行优化；将所述预标记的产品词样本集输入所述训练后的UNILM模型进行微调，得到产品词生成模型；利用所述产品词生成模型对输入的行业词文本进行预测，并基...

【技术保护点】

【技术特征摘要】
1.一种基于语义模型的行业树产品词生成方法，其特征在于，包括：获取待细分类的行业词样本集和预标记的产品词样本集；将所述待细分类的行业词样本集输入预搭建的UNILM模型进行训练，得到训练后的UNILM模型，其中，利用损失函数对所述UNILM模型的参数进行优化；将所述预标记的产品词样本集输入所述训练后的UNILM模型进行微调，得到产品词生成模型；利用所述产品词生成模型对输入的行业词文本进行预测，并基于预设的输出规则，输出产品词。2.根据权利要求1所述的基于语义模型的行业树产品词生成方法，其特征在于，所述将所述待细分类的行业词样本集输入预搭建的UNILM模型进行训练之前，包括：从所述待细分类的行业词样本集选取其中一个行业词样本，将所述行业词样本进行分词处理，得到由多个单独的文字序列构成的行业词序列；对其中一个所述文字序列进行掩码处理，并在所述行业词序列之前插入第一标签符号，并在所述行业词序列之后插入第二标签符号；将处理后的所述行业词序列输入至Segment Embedding层，依次经过Pssition Embedding层和Token Embedding层，以得到可输入UNILM模型的文字向量。3.根据权利要求2所述的基于语义模型的行业树产品词生成方法，其特征在于，所述将所述待细分类的行业词样本集输入预搭建的UNILM模型进行训练，包括：将得到的文字向量输入依次相连接的12层Transformer block层，以对预搭建的UNILM模型进行训练，其中，各Transformer block层均包含encoder模块，各所述encoder模块包含self
‑
Attention层，前馈神经网络层和归一化标准层。4.根据权利要求2所述的基于语义模型的行业树产品词生成方法，其特征在于，所述利用损失函数对所述UNILM模型的参数进行优化，包括：利用交叉熵损失函数对所述UNILM模型的参数进行优化。5.一种基于语义模型的行业树产品词生成装置，其特征在于，包括：数据准备单元，用于获取待细分类的行业词样本集和预标记的产品词样本集；训练单元，用于将所述待细分类的行业词样本集输入预搭建的UNILM模型进行训练，得到训...

【专利技术属性】
技术研发人员：蔡青山，
申请(专利权)人：企知道网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人