【技术实现步骤摘要】
一种文本特征信息识别方法及装置
[0001]本专利技术涉及信息识别
,尤其涉及一种文本特征信息识别方法及装置。
技术介绍
[0002]提取文本中的品牌品类信息,并判断文本属于哪个行业,是对广告数据分析的一个重要手段,以便用户对文本进行筛选。目前通常采用关键词匹配等技术来提取文本中的品牌或品类信息,再通过品牌和品类信息来判断文本属于哪个行业。但这种方式存在以下缺点:一是品牌或品类信息可能存在歧义,比如一个品牌可能涉足多个行业;二是当新品牌和新品类出现时,此时无法对其进行提取和行业判断。因此,提供一种文本特征信息识别方法及装置,以在提取品牌品类信息的同时判断文本的行业,并通过上下文的语义信息对未知的品牌品类进行有效提取,进而提高对文本特征信息的识别效率显得尤为重要。
技术实现思路
[0003]本专利技术所要解决的技术问题在于,提供一种文本特征信息识别方法及装置,能够利用文本向量模型对文本信息进行特征提取处理、聚合和提取处理等综合处理,得到行业类别信息和品牌品类信息,有利于在提取品牌品类信息的同时判断文本的行 ...
【技术保护点】
【技术特征摘要】
1.一种文本特征信息识别方法,其特征在于,所述方法包括:获取文本信息;利用预设的文本向量模型对所述文本信息进行特征提取处理,得到文字特征向量信息;对所述文字特征向量信息进行聚合和提取处理,得到文本特征信息;所述文本特征信息包括行业类别信息,和/或,品牌品类信息。2.根据权利要求1所述的文本特征信息识别方法,其特征在于,所述对所述文字特征向量信息进行聚合和提取处理,得到文本特征信息,包括:对所述文字特征向量信息进行聚合处理,得到所述行业类别信息;所述行业类别信息表征所述文本信息的所属行业;对所述文字特征向量信息进行分类标注,得到所述品牌品类信息。3.根据权利要求2所述的文本特征信息识别方法,其特征在于,所述对所述文字特征向量信息进行聚合处理,得到所述行业类别信息,包括:获取第一初始化矩阵和第二初始化矩阵;对所述第一初始化矩阵和所述文字特征向量信息进行计算,得到查询向量;对所述第二初始化矩阵和所述文字特征向量信息进行计算,得到键矩阵;根据所述查询向量和所述键矩阵,确定出所述行业类别信息。4.根据权利要求3所述的文本特征信息识别方法,其特征在于,所述文本向量模型包括第一神经网络模型;所述根据所述查询向量和所述键矩阵,确定出所述行业类别信息,包括:对所述查询向量和所述键矩阵进行内积计算,得到注意力向量;对所述注意力向量进行归一化处理,得到权重向量;对所述权重向量和所述文字特征向量信息进行处理,得到分类向量;根据所述第一神经网络模型和所述分类向量,确定出所述行业类别信息。5.根据权利要求2所述的文本特征信息识别方法,其特征在于,所述文本向量模型还包括第二神经网络模型;所述对所述文字特征向量信息进行分类标注,得到所述品牌品类信息,包括:利用所述第二神经网络模型对所述文字特征向量信息进行文字分类,得到文字类别信息;对所述文字类别信息进行标签标注,得到所述品牌品类信息。6.根据权利要求1所述的文本特征信息识别方法,其特征在于,所述文本向量模型还包括Transformer模型;所述利用预设的文本向量模型对所述文本信息进行特征...
【专利技术属性】
技术研发人员:钟艺豪,黄于晏,
申请(专利权)人:有米科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。