分类模型更新方法及其相应的装置、设备、介质制造方法及图纸

技术编号:30329278 阅读:28 留言:0更新日期:2021-10-10 00:31
本申请公开一种分类模型更新方法及其相应的装置、设备、介质,该方法包括:获取具有满足预设时效性的引用文本,对其进行分词以提取出候选词;融合每个候选词的自信息熵与互信息熵获得每个候选词的信息分值,将信息分值高于预设阈值的候选词作为所述引用文本中的命中词;计算每个命中词与预设的分类词库中各个分类的匹配度,将每个命中词按照相应的匹配度聚类至所述各个分类;将每个命中词的最高匹配度的分类确定为该命中词的所属分类,将该命中词与其所属分类以及所述引用文本之间的映射关系更新至语料库;启动分类模型的训练。本申请使分类模型不断引入其对动态新增热点信息的语义理解能力而提升其对于标题文本的安全属性分类能力。性分类能力。性分类能力。

【技术实现步骤摘要】
分类模型更新方法及其相应的装置、设备、介质


[0001]本申请实施例涉及电商信息
,尤其涉及一种分类模型更新方法及其相应的装置、设备、介质。

技术介绍

[0002]文本分类作为信息管理和应用的一种有效手段,主要是根据目标文档的主题或内容,将大量文本按照一定的分类体系或标准,依次归属到一个或多个类别的过程。在支撑主题抽取、情感分析、舆情分析、垃圾邮件过滤、智能问答和推荐系统等方面起着重要的作用。
[0003]近年随着Attention(注意力机制)的兴起,预训练和精调模型(fine

tune)用于NLP语言任务的情况越来越多。首先预训练得到的模型是基于大量完整语义所训练后得到的结果,在一些复杂的语义识别,问答和理解时有着较好的效果。遗憾的是,在本申请所关注的跨境电商领域,大部分的内容,特别是用于描述电商产品的电商标题,其语境没有完整的语义,基本都是关键词的拼接,因此,直接使用各大研究团队得到的预训练模型无法满足电商领域的文本分类需求。
[0004]同时,基于精调的深度学习模型的训练过程需要耗费大量的时间,且易因为模型的复杂度较高而极容易出现过拟合,过程中需要不断地对样本进行更新迭代,耗时费力。由此,将模型投入实际生产进行实时的风控内容检测时,模型会因为得不到及时更新,导致风控出现极大的风险。特别是在跨境电商领域,由于商品销售是面向不同的国家、不同的文化,便极容易出现涉及到对方文化、法律或是当前时事中的一些违禁点或敏感点,那么就需要及时地对跨境电商领域中的一些实时更新的商品、内容进行实时的检测,分析其相关信息,判决其是否属于安全或不安全类别。
[0005]为了实现对上线商品的安全属性的判决,当前存在的方法则是以先建立好的不同类型词库进行相关内容的匹配,但是,由于缺乏有效的技术手段,这些词库的更新通常是人力执行或滞后采集的,因此不同国家和地区的词库的更新往往具有极大的延迟,如果借助翻译别国的词库来实现,又会导致得到的本国语言词库只是语义本身就不够准确的直译结果,反而更容易使靠关键词来匹配的模型出现极大的误判。
[0006]综上所述,用于实现文本分类的机器学习模型,无论是神经网络模型还是传统机器学习模型,在对电商领域特别是跨境电商领域常用的标题文本进行分类时,由于其词库的更新滞后,容易导致相应的模型出现分类不准确、不及时等现象,亟待改进。

技术实现思路

[0007]本申请的目的针对现有技术中存在的至少部分不足而提供一种分类模型更新方法及其相应的装置、计算机设备及存储介质。
[0008]为解决上述技术问题,本申请采用的一个技术方案是:
[0009]本申请提供一种分类模型更新方法,其包括如下步骤:
[0010]获取具有满足预设时效性的引用文本,对其进行分词以提取出候选词;
[0011]融合每个候选词的自信息熵与互信息熵获得每个候选词的信息分值,将信息分值高于预设阈值的候选词作为所述引用文本中的命中词;
[0012]计算每个命中词与预设的分类词库中各个分类的匹配度,将每个命中词按照相应的匹配度聚类至所述各个分类以构成该分类词库的关键词;
[0013]将每个命中词的最高匹配度的分类确定为该命中词的所属分类,将该命中词与其所属分类以及所述引用文本之间的映射关系更新至语料库;
[0014]启动用于实现标题文本分类的分类模型的训练,使该分类模型以所述语料库中的所述引用文本作为训练样本,以所述语料库中该引用文本相对应的命中词与其分类的映射关系作为该引用文本的监督标签。
[0015]较佳的实施例中,获取具有满足预设时效性的引用文本,对其进行分词以提取出候选词,包括如下步骤:
[0016]调用爬虫接口抓取属于目标地理区域及预设时间范围内的网站信息页面;
[0017]从所述网站信息页面中提取出其中的文本信息,将其格式化预处理为所述的引用文本;
[0018]调用分词器对所述引用文本进行分词,以获得所述的候选词。
[0019]具体化的实施例中,融合每个候选词的自信息熵与互信息熵获得每个候选词的信息分值,将信息分值高于预设阈值的候选词作为所述引用文本中的命中词,包括如下步骤:
[0020]统计每个候选词的自信息熵,自信息熵为该候选词的左邻信息熵与右邻信息熵的和值;
[0021]统计每个候选词的互信息熵;
[0022]适应每个候选词,将其自信息熵与其互信息熵配以不同权重进行线性融合,获得相应的候选词的信息分值;
[0023]输出信息分值高于预设阈值的候选词作为所述引用文本中的命中词。
[0024]具体化的实施例中,计算每个命中词与预设的分类词库中各个分类的匹配度,将每个命中词按照相应的匹配度聚类至所述各个分类以构成该分类词库的关键词,包括如下步骤:
[0025]将所述命中词与所述预设的分类词库中的关键词进行向量化;
[0026]根据向量化所得的词向量,计算每个命中词与分类词库中各个分类的关键词之间的平均余弦相似度作为所述的匹配度;
[0027]将每个命中词与所述各个分类的匹配度的对应关系数据存储至所述分类词库中,使该命中词构成其中的关键词,完成所述命中词的聚类。
[0028]进一步扩展的实施例中,将每个命中词与所述各个分类的匹配度的对应关系数据存储至所述分类词库中,使该命中词构成其中的关键词,完成所述命中词的聚类,还包括如下步骤:
[0029]调用所述用于实现标题文本分类的分类模型对所述引用文本进行分类,确定所述引用文本在所述预设分类词库的分类结构中所属的具体分类;
[0030]比较所述引用文本的具体分类与该引用文本的命中词的最高匹配度的分类是否一致,当两者不一致时,从所述预设分类词库中召回相应的命中词;
[0031]接收针对所召回的命中词的匹配度的重新标注数据,将其存储至所述的预设分类
词库中。
[0032]进一步扩展的实施例中,所述分类模型经训练至收敛状态启动运行之后,包括如下步骤:
[0033]获取外部输入的标题文本;
[0034]将所述标题文本分词并向量化,获得标题词向量;
[0035]根据所述标题词向量对标题文本进行分类,获得其属于所述分类词库中的各个分类的评分值;
[0036]输出其中评分值最大的分类的分类标签。
[0037]较佳的实施例中,所述标题文本为电商产品的标题形式,包括用于描述电商产品的多个语义相关而语法上离散的字词。
[0038]为解决上述技术问题,本申请采用的另一技术方案是:
[0039]本申请提供一种分类模型更新装置,其包括文本引用模块、文本评分模块、分类更新模块、语料更新模块、模型启动模块,其中,所述文本引用模块,用于获取具有满足预设时效性的引用文本,对其进行分词以提取出候选词;所述文本评分模块,用于融合每个候选词的自信息熵与互信息熵获得每个候选词的信息分值,将信息分值高于预设阈值的候选词作为所述引用文本中的命中词;所述分类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分类模型更新方法,其特征在于,包括如下步骤:获取具有满足预设时效性的引用文本,对其进行分词以提取出候选词;融合每个候选词的自信息熵与互信息熵获得每个候选词的信息分值,将信息分值高于预设阈值的候选词作为所述引用文本中的命中词;计算每个命中词与预设的分类词库中各个分类的匹配度,将每个命中词按照相应的匹配度聚类至所述各个分类以构成该分类词库的关键词;将每个命中词的最高匹配度的分类确定为该命中词的所属分类,将该命中词与其所属分类以及所述引用文本之间的映射关系更新至语料库;启动用于实现标题文本分类的分类模型的训练,使该分类模型以所述语料库中的所述引用文本作为训练样本,以所述语料库中该引用文本相对应的命中词与其分类的映射关系作为该引用文本的监督标签。2.根据权利要求1所述的分类模型更新方法,其特征在于,获取具有满足预设时效性的引用文本,对其进行分词以提取出候选词,包括如下步骤:调用爬虫接口抓取属于目标地理区域及预设时间范围内的网站信息页面;从所述网站信息页面中提取出其中的文本信息,将其格式化预处理为所述的引用文本;调用分词器对所述引用文本进行分词,以获得所述的候选词。3.根据权利要求1所述的分类模型更新方法,其特征在于,融合每个候选词的自信息熵与互信息熵获得每个候选词的信息分值,将信息分值高于预设阈值的候选词作为所述引用文本中的命中词,包括如下步骤:统计每个候选词的自信息熵,自信息熵为该候选词的左邻信息熵与右邻信息熵的和值;统计每个候选词的互信息熵;适应每个候选词,将其自信息熵与其互信息熵配以不同权重进行线性融合,获得相应的候选词的信息分值;输出信息分值高于预设阈值的候选词作为所述引用文本中的命中词。4.根据权利要求1所述的分类模型更新方法,其特征在于,计算每个命中词与预设的分类词库中各个分类的匹配度,将每个命中词按照相应的匹配度聚类至所述各个分类以构成该分类词库的关键词,包括如下步骤:将所述命中词与所述预设的分类词库中的关键词进行向量化;根据向量化所得的词向量,计算每个命中词与分类词库中各个分类的关键词之间的平均余弦相似度作为所述的匹配度;将每个命中词与所述各个分类的匹配度的对应关系数据存储至所述分类词库中,使该命中词构成其中的关键词,完成所述命中词的聚类。5.根据权利要求4所述的分类模型更新方法,其特征在于,将每个命中词与所述各个分类的匹配度的对应关系数据存储至所述分类词库中,...

【专利技术属性】
技术研发人员:郑彦
申请(专利权)人:广州华多网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1