【技术实现步骤摘要】
网站文章、标签与分类匹配用模型自动更新系统
[0001]本专利技术涉及模型更新
,具体为网站文章、标签与分类匹配用模型自动更新系统。
技术介绍
[0002]在文章和标签的文本语义自动匹配时,工业界很多应用都在语义上衡量文本相似度的需求,统称为语义匹配,根据文本长度的不同,语义匹配可以分为三类,分别是短文本
‑
短文本语义匹配、短文本
‑
长文本语义匹配和长文本
‑
长文本语义匹配;针对于某些站点,标签及文章的数据较多,且需要精细化管理,人工管理标签数据与匹配所消耗的时间精力较大,其中标签数据以词语、断句、长句的形式存在,例如:招聘面试技巧、有道理的短故事、如何才能做到有效沟通、会计的职责和任务是什么等,在上述应用场景中,短文本
‑
长文本的匹配方案可选为:在计算相似度的时候,规避对短文本直接进行主题映射,而是根据长文本的主题分布,计算该分部生成短文本的概率,作为他们之间的相似度,再选择最优的多个匹配结果作为最终结果。
[0003]在文章标签分类的自 ...
【技术保护点】
【技术特征摘要】
1.网站文章、标签与分类匹配用模型自动更新系统,其特征在于:包括数据输入模块、推荐查询单元和训练单元,所述数据输入模块包括输入查询数据,通过推荐查询单元获取查询数据,对查询数据进行处理得到关键词数据,将关键词数据和推荐查询单元获取的数据库中的数据进行匹配,得到匹配数据和匹配对应的文章;所述数据库采用的是Milvus数据库,所述Milvus数据库采用共享架构,所述Milvus数据库获取来自站点的文章信息数据,对来自站点的文章信息数据处理后进行存储;所述训练单元对推荐查询单元中的数据处理模型进行适应性训练,所述训练单元的训练内容包括请求增量训练,用于在业务数据增加时,数据处理模型能够适应业务数据的处理。2.根据权利要求1所述的网站文章、标签与分类匹配用模型自动更新系统,其特征在于,所述数据输入模块包括离线单元和在线单元;所述离线单元用于在离线状态下,设置定时采取数据单元,通过设置数据采取的时间间隔,将站点内的数据经过算法模型进行处理,将经过算法模型处理后获得的数据存储在Milvus数据库中;所述在线单元用于在线的方式下,站点后端直接传送数据,将站点内的数据进行过算法模型处理,并将经过算法模型处理后获得的数据存储在Milvus数据库中。3.根据权利要求1所述的网站文章、标签与分类匹配用模型自动更新系统,其特征在于,所述推荐查询单元包括输入数据处理单元和比对单元,所述输入数据处理单元用于获取查询的数据,对输入的数据进行处理后得到向量映射数据embedding,将向量映射数据embedding存储在Milvus数据库中,所述比对单元获取向量映射数据embedding,用于和Milvus数据库中的数据进行比对,获取匹配数据和匹配对应的文章。4.根据权利要求3所述的网站文章、标签与分类匹配用模型自动更新系统,其特征在于,所述数据处理单元的处理步骤包括:步骤一、输入文章数据和标签数据;步骤二、所述roformer模型获取输入的文章数...
【专利技术属性】
技术研发人员:赵绪龙,王士义,许健康,
申请(专利权)人:湖北省珍岛数字智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。