一种文本特征信息识别方法及装置制造方法及图纸

技术编号:33646507 阅读:18 留言:0更新日期:2022-06-02 20:23
本发明专利技术公开了一种文本特征信息识别方法及装置,该方法包括:获取文本信息;利用预设的文本向量模型对文本信息进行特征提取处理,得到文字特征向量信息;对文字特征向量信息进行聚合和提取处理,得到文本特征信息;文本特征信息包括行业类别信息,和/或,品牌品类信息。可见,本发明专利技术能够利用文本向量模型对文本信息进行特征提取处理、聚合和提取处理等综合处理,得到行业类别信息和品牌品类信息,有利于在提取品牌品类信息的同时判断文本的行业,并通过上下文的语义信息对未知的品牌品类进行有效提取,进而提高对文本特征信息的识别效率。率。率。

【技术实现步骤摘要】
一种文本特征信息识别方法及装置


[0001]本专利技术涉及信息识别
,尤其涉及一种文本特征信息识别方法及装置。

技术介绍

[0002]提取文本中的品牌品类信息,并判断文本属于哪个行业,是对广告数据分析的一个重要手段,以便用户对文本进行筛选。目前通常采用关键词匹配等技术来提取文本中的品牌或品类信息,再通过品牌和品类信息来判断文本属于哪个行业。但这种方式存在以下缺点:一是品牌或品类信息可能存在歧义,比如一个品牌可能涉足多个行业;二是当新品牌和新品类出现时,此时无法对其进行提取和行业判断。因此,提供一种文本特征信息识别方法及装置,以在提取品牌品类信息的同时判断文本的行业,并通过上下文的语义信息对未知的品牌品类进行有效提取,进而提高对文本特征信息的识别效率显得尤为重要。

技术实现思路

[0003]本专利技术所要解决的技术问题在于,提供一种文本特征信息识别方法及装置,能够利用文本向量模型对文本信息进行特征提取处理、聚合和提取处理等综合处理,得到行业类别信息和品牌品类信息,有利于在提取品牌品类信息的同时判断文本的行业,并通过上下文的语本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本特征信息识别方法,其特征在于,所述方法包括:获取文本信息;利用预设的文本向量模型对所述文本信息进行特征提取处理,得到文字特征向量信息;对所述文字特征向量信息进行聚合和提取处理,得到文本特征信息;所述文本特征信息包括行业类别信息,和/或,品牌品类信息。2.根据权利要求1所述的文本特征信息识别方法,其特征在于,所述对所述文字特征向量信息进行聚合和提取处理,得到文本特征信息,包括:对所述文字特征向量信息进行聚合处理,得到所述行业类别信息;所述行业类别信息表征所述文本信息的所属行业;对所述文字特征向量信息进行分类标注,得到所述品牌品类信息。3.根据权利要求2所述的文本特征信息识别方法,其特征在于,所述对所述文字特征向量信息进行聚合处理,得到所述行业类别信息,包括:获取第一初始化矩阵和第二初始化矩阵;对所述第一初始化矩阵和所述文字特征向量信息进行计算,得到查询向量;对所述第二初始化矩阵和所述文字特征向量信息进行计算,得到键矩阵;根据所述查询向量和所述键矩阵,确定出所述行业类别信息。4.根据权利要求3所述的文本特征信息识别方法,其特征在于,所述文本向量模型包括第一神经网络模型;所述根据所述查询向量和所述键矩阵,确定出所述行业类别信息,包括:对所述查询向量和所述键矩阵进行内积计算,得到注意力向量;对所述注意力向量进行归一化处理,得到权重向量;对所述权重向量和所述文字特征向量信息进行处理,得到分类向量;根据所述第一神经网络模型和所述分类向量,确定出所述行业类别信息。5.根据权利要求2所述的文本特征信息识别方法,其特征在于,所述文本向量模型还包括第二神经网络模型;所述对所述文字特征向量信息进行分类标注,得到所述品牌品类信息,包括:利用所述第二神经网络模型对所述文字特征向量信息进行文字分类,得到文字类别信息;对所述文字类别信息进行标签标注,得到所述品牌品类信息。6.根据权利要求1所述的文本特征信息识别方法,其特征在于,所述文本向量模型还包括Transformer模型;所述利用预设的文本向量模型对所述文本信息进行特征...

【专利技术属性】
技术研发人员:钟艺豪黄于晏
申请(专利权)人:有米科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1