分类模型更新方法及其相应的装置、设备、介质制造方法及图纸

技术编号：30329278 阅读：28 留言：0更新日期：2021-10-10 00:31

本申请公开一种分类模型更新方法及其相应的装置、设备、介质，该方法包括：获取具有满足预设时效性的引用文本，对其进行分词以提取出候选词；融合每个候选词的自信息熵与互信息熵获得每个候选词的信息分值，将信息分值高于预设阈值的候选词作为所述引用文本中的命中词；计算每个命中词与预设的分类词库中各个分类的匹配度，将每个命中词按照相应的匹配度聚类至所述各个分类；将每个命中词的最高匹配度的分类确定为该命中词的所属分类，将该命中词与其所属分类以及所述引用文本之间的映射关系更新至语料库；启动分类模型的训练。本申请使分类模型不断引入其对动态新增热点信息的语义理解能力而提升其对于标题文本的安全属性分类能力。性分类能力。性分类能力。

全部详细技术资料下载

【技术实现步骤摘要】
分类模型更新方法及其相应的装置、设备、介质

[0001]本申请实施例涉及电商信息
，尤其涉及一种分类模型更新方法及其相应的装置、设备、介质。

技术介绍

[0002]文本分类作为信息管理和应用的一种有效手段，主要是根据目标文档的主题或内容，将大量文本按照一定的分类体系或标准，依次归属到一个或多个类别的过程。在支撑主题抽取、情感分析、舆情分析、垃圾邮件过滤、智能问答和推荐系统等方面起着重要的作用。
[0003]近年随着Attention(注意力机制)的兴起，预训练和精调模型(fine
‑
tune)用于NLP语言任务的情况越来越多。首先预训练得到的模型是基于大量完整语义所训练后得到的结果，在一些复杂的语义识别，问答和理解时有着较好的效果。遗憾的是，在本申请所关注的跨境电商领域，大部分的内容，特别是用于描述电商产品的电商标题，其语境没有完整的语义，基本都是关键词的拼接，因此，直接使用各大研究团队得到的预训练模型无法满足电商领域的文本分类需求。
[0004]同时，基于精调的深度学习模型的训练过程需要耗费大量的时间，且易因为模型的复杂度较高而极容易出现过拟合，过程中需要不断地对样本进行更新迭代，耗时费力。由此，将模型投入实际生产进行实时的风控内容检测时，模型会因为得不到及时更新，导致风控出现极大的风险。特别是在跨境电商领域，由于商品销售是面向不同的国家、不同的文化，便极容易出现涉及到对方文化、法律或是当前时事中的一些违禁点或敏感点，那么就需要及时地对跨境电商领域中的一些实时更新的商品、内容...

【技术保护点】

【技术特征摘要】
1.一种分类模型更新方法，其特征在于，包括如下步骤：获取具有满足预设时效性的引用文本，对其进行分词以提取出候选词；融合每个候选词的自信息熵与互信息熵获得每个候选词的信息分值，将信息分值高于预设阈值的候选词作为所述引用文本中的命中词；计算每个命中词与预设的分类词库中各个分类的匹配度，将每个命中词按照相应的匹配度聚类至所述各个分类以构成该分类词库的关键词；将每个命中词的最高匹配度的分类确定为该命中词的所属分类，将该命中词与其所属分类以及所述引用文本之间的映射关系更新至语料库；启动用于实现标题文本分类的分类模型的训练，使该分类模型以所述语料库中的所述引用文本作为训练样本，以所述语料库中该引用文本相对应的命中词与其分类的映射关系作为该引用文本的监督标签。2.根据权利要求1所述的分类模型更新方法，其特征在于，获取具有满足预设时效性的引用文本，对其进行分词以提取出候选词，包括如下步骤：调用爬虫接口抓取属于目标地理区域及预设时间范围内的网站信息页面；从所述网站信息页面中提取出其中的文本信息，将其格式化预处理为所述的引用文本；调用分词器对所述引用文本进行分词，以获得所述的候选词。3.根据权利要求1所述的分类模型更新方法，其特征在于，融合每个候选词的自信息熵与互信息熵获得每个候选词的信息分值，将信息分值高于预设阈值的候选词作为所述引用文本中的命中词，包括如下步骤：统计每个候选词的自信息熵，自信息熵为该候选词的左邻信息熵与右邻信息熵的和值；统计每个候选词的互信息熵；适应每个候选词，将其自信息熵与其互信息熵配以不同权重进行线性融合，获得相应的候选词的信息分值；输出信息分值高于预设阈值的候选词作为所述引用文本中的命中词。4.根据权利要求1所述的分类模型更新方法，其特征在于，计算每个命中词与预设的分类词库中各个分类的匹配度，将每个命中词按照相应的匹配度聚类至所述各个分类以构成该分类词库的关键词，包括如下步骤：将所述命中词与所述预设的分类词库中的关键词进行向量化；根据向量化所得的词向量，计算每个命中词与分类词库中各个分类的关键词之间的平均余弦相似度作为所述的匹配度；将每个命中词与所述各个分类的匹配度的对应关系数据存储至所述分类词库中，使该命中词构成其中的关键词，完成所述命中词的聚类。5.根据权利要求4所述的分类模型更新方法，其特征在于，将每个命中词与所述各个分类的匹配度的对应关系数据存储至所述分类词库中，...

【专利技术属性】
技术研发人员：郑彦，
申请(专利权)人：广州华多网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人