商户文本的识别方法、装置、设备和存储介质制造方法及图纸

技术编号:36367889 阅读:32 留言:0更新日期:2023-01-18 09:25
本申请提供一种商户文本的识别方法、装置、设备和存储介质,方法包括,获取待识别商户文本;针对每一种类型的特征词,根据待识别商户文本中每一个词是否为该类型的特征词,为待识别商户文本中每一个词配置对应的权重系数,并利用配置的权重系数对待识别商户文本的各个词的词向量进行加权求和,得到待识别商户文本的与该类型对应的特征向量;特征词的类型包括关键词、主题词、实体词和属于频繁序列模式的词中的任意多种;根据待识别商户文本的与各个类型对应的特征向量进行集成聚类,获得待识别商户文本所属类别。相比于现有技术,本方案获得的不同类型的特征向量能够反映商户文本更多的特征,因而可以更准确的识别出商户文本所属类别。所属类别。所属类别。

【技术实现步骤摘要】
商户文本的识别方法、装置、设备和存储介质


[0001]本专利技术涉及文本识别
,特别涉及一种商户文本的识别方法、装置、设备和存储介质。

技术介绍

[0002]随着移动互联网技术(如移动支付)的普及,线上的商户文本数据与日俱增,商户文本的识别(或者说商户文本的分类)在商户画像构建、用户消费偏好分析、用户权益推荐等领域也起着愈发重要的作用。
[0003]商户文本,是指包含商户名称的文本,例如商户文本“某甲向XX服装店支付2元”,其中包含商户名称“XX服装店”。商户文本的识别,则是指识别出商户文本中包含的商户所属的类别,如识别出“XX服装店”属于服装类别。
[0004]一种商户文本的识别方法是,获得大量预先分类好的商户文本样本,利用这些商户文本样本的特征向量训练分类模型(可以是一个多分类模型或多个二分类模型),然后将待识别商户文本的特征向量输入训练好的分类模型,获得待识别商户文本所属类别。
[0005]这种方法存在的问题是,商户文本(如前述例子)的长度较短,相应的提取出的特征向量所能反映的商户文本的特征也较少,利用商户文本的特征向量难以训练出的足够准确的分类模型,因而该方法进行商户文本的识别时准确度较差。

技术实现思路

[0006]针对上述现有技术存在的问题,本专利技术提供一种商户文本的识别方法、装置、设备和存储介质,以提供一种准确度更高的商户文本的识别方案。
[0007]本申请第一方面提供一种商户文本的识别方法,包括:
[0008]获取待识别商户文本;
>[0009]针对每一种类型的特征词,根据所述待识别商户文本中每一个词是否为该类型的特征词,为所述待识别商户文本中每一个词配置对应的权重系数,并利用配置的权重系数对所述待识别商户文本的各个词的词向量进行加权求和,得到所述待识别商户文本的与该类型对应的特征向量;其中,特征词的类型包括关键词、主题词、实体词和属于频繁序列模式的词中的任意多种;所述特征词由样本库中预先标注有所属类别的多个商户文本经过文本挖掘得到;所述频繁序列模式指代在所述样本库的商户文本中支持率大于第一阈值的序列模式;序列模式由文本中至少一个词组成;
[0010]针对每一种特征词的类型,利用所述待识别商户文本的与该类型对应的特征向量,以及所述样本库中商户文本的与该类型对应的特征向量进行聚类,获得该类型对应的聚类结果;
[0011]将多个聚类结果中,重复出现次数最多的聚类结果确定为最终聚类结果,并根据所述最终聚类结果确定所述待识别商户文本所属类别。
[0012]可选的,所述根据所述待识别商户文本的与各个所述类型对应的特征向量进行集
成聚类,获得所述待识别商户文本所属类别之后,还包括:
[0013]将所述待识别商户文本添加至所述样本库;
[0014]对添加所述待识别商户文本后的所述样本库进行文本挖掘,以更新任意一种或多种类型的特征词。
[0015]可选的,对所述样本库中商户文本进行文本挖掘得到所述关键词的过程包括:
[0016]针对所述样本库中每一类别的商户文本,统计所述类别的商户文本中每一个词的词频和逆文档频率,并根据每一个词的词频和逆文档频率,分别计算得到每一个词的类别特征权重;
[0017]针对所述样本库中每一类别的商户文本,选取所述类别的商户文本中类别特征权重大于第二阈值的词作为关键词。
[0018]可选的,对所述样本库中商户文本进行文本挖掘得到所述主题词的过程包括:
[0019]针对所述样本库中每一类别的商户文本,确定所述类别的商户文本中每一个词的第一词频和第二词频,并根据每一个词的第一词频和第二词频的差异分别确定每一个词的主题综合权重;其中,所述第一词频为该词在所述类别的商户文本中的词频;所述第二词频为该词在除所述类别以外其他类别的商户文本中的词频;
[0020]针对所述样本库中每一类别的商户文本,按照所述类别的商户文本中每个词的主题综合权重由大至小的顺序选取N个词作为主题词;其中,N为预设的正整数。
[0021]本申请第二方面提供一种商户文本的识别装置,包括:
[0022]挖掘单元,用于对样本库中预先标注有所属类别的多个商户文本进行文本挖掘,得到多种类型的特征词;其中,特征词的类型包括关键词、主题词、实体词和属于频繁序列模式的词中的任意多种;所述频繁序列模式指代在所述样本库的商户文本中支持率大于第一阈值的序列模式;序列模式由文本中至少一个词组成;
[0023]获取单元,用于获取待识别商户文本;
[0024]加权单元,用于针对每一种类型的特征词,根据所述待识别商户文本中每一个词是否为该类型的特征词,为所述待识别商户文本中每一个词配置对应的权重系数,并利用配置的权重系数对所述待识别商户文本的各个词的词向量进行加权求和,得到所述待识别商户文本的与该类型对应的特征向量;其中,特征词的类型包括关键词、主题词、实体词和属于频繁序列模式的词中的任意多种;所述频繁序列模式指代在所述样本库的商户文本中支持率大于第一阈值的序列模式;序列模式由文本中至少一个词组成;
[0025]聚类单元,用于:
[0026]针对每一种特征词的类型,利用所述待识别商户文本的与该类型对应的特征向量,以及所述样本库中商户文本的与该类型对应的特征向量进行聚类,获得该类型对应的聚类结果;
[0027]将多个聚类结果中,重复出现次数最多的聚类结果确定为最终聚类结果,并根据所述最终聚类结果确定所述待识别商户文本所属类别。
[0028]可选的,所述挖掘单元还用于:
[0029]将所述待识别商户文本添加至所述样本库;
[0030]对添加所述待识别商户文本后的所述样本库进行文本挖掘,以更新任意一种或多种类型的特征词。
[0031]可选的,所述挖掘单元对所述样本库中商户文本进行文本挖掘得到所述关键词的过程包括:
[0032]针对所述样本库中每一类别的商户文本,统计所述类别的商户文本中每一个词的词频和逆文档频率,并根据每一个词的词频和逆文档频率,分别计算得到每一个词的类别特征权重;
[0033]针对所述样本库中每一类别的商户文本,选取所述类别的商户文本中类别特征权重大于第二阈值的词作为关键词。
[0034]可选的,所述挖掘单元对所述样本库中商户文本进行文本挖掘得到所述主题词的过程包括:
[0035]针对所述样本库中每一类别的商户文本,确定所述类别的商户文本中每一个词的第一词频和第二词频,并根据每一个词的第一词频和第二词频的差异分别确定每一个词的主题综合权重;其中,所述第一词频为该词在所述类别的商户文本中的词频;所述第二词频为该词在除所述类别以外其他类别的商户文本中的词频;
[0036]针对所述样本库中每一类别的商户文本,按照所述类别的商户文本中每个词的主题综合权重由大至小的顺序选取N个词作为主题词;其中,N为预设的正整数。
[0037]本申请第三方面提供一种计算机存储介质,用于存储计算机程序,所述计算机程序本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种商户文本的识别方法,其特征在于,包括:获取待识别商户文本;针对每一种类型的特征词,根据所述待识别商户文本中每一个词是否为该类型的特征词的结果,为所述待识别商户文本中每一个词配置对应的权重系数,并利用配置的权重系数对所述待识别商户文本的各个词的词向量进行加权求和,得到所述待识别商户文本的与该类型对应的特征向量;其中,特征词的类型包括关键词、主题词、实体词和属于频繁序列模式的词;所述特征词由样本库中预先标注有所属类别的多个商户文本经过文本挖掘得到;所述频繁序列模式指代在所述样本库的商户文本中支持率大于第一阈值的序列模式;序列模式由文本中至少一个词组成;针对每一种特征词的类型,利用聚类模型对所述待识别商户文本的与该类型对应的特征向量,以及所述样本库中商户文本的与该类型对应的特征向量进行聚类处理,获得该类型对应的聚类结果;其中,所述聚类模型包括多种不同的聚类算法;将多个聚类结果中,重复出现次数最多的聚类结果确定为最终聚类结果,并根据所述最终聚类结果确定所述待识别商户文本所属类别。2.根据权利要求1所述的识别方法,其特征在于,所述根据所述待识别商户文本的与各个所述类型对应的特征向量进行集成聚类,获得所述待识别商户文本所属类别之后,还包括:将所述待识别商户文本添加至所述样本库;对添加所述待识别商户文本后的所述样本库进行文本挖掘,以更新任意一种或多种类型的特征词。3.根据权利要求1所述的识别方法,其特征在于,对所述样本库中商户文本进行文本挖掘得到所述关键词的过程包括:针对所述样本库中每一类别的商户文本,统计所述类别的商户文本中每一个词的词频和逆文档频率,并根据每一个词的词频和逆文档频率,分别计算得到每一个词的类别特征权重;针对所述样本库中每一类别的商户文本,选取所述类别的商户文本中类别特征权重大于第二阈值的词作为关键词。4.根据权利要求1所述的识别方法,其特征在于,对所述样本库中商户文本进行文本挖掘得到所述主题词的过程包括:针对所述样本库中每一类别的商户文本,确定所述类别的商户文本中每一个词的第一词频和第二词频,并根据每一个词的第一词频和第二词频的差异分别确定每一个词的主题综合权重;其中,所述第一词频为该词在所述类别的商户文本中的词频;所述第二词频为该词在除所述类别以外其他类别的商户文本中的词频;针对所述样本库中每一类别的商户文本,按照所述类别的商户文本中每个词的主题综合权重由大至小的顺序选取N个词作为主题词;其中,N为预设的正整数。5.一种商户文本的识别装置,其特征在于,包括:挖掘单元,用于对样本库中预先标注有所属类别的多个商户文本进行文本挖掘,得到多种类型的特征词;其中,特征词的类型包括关键词、主题词、实体词和属于频繁序列模式的词中的任意多种;所述频繁序列模式指代在所述样本库的商户文本中支持...

【专利技术属性】
技术研发人员:刘志煌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1