资讯去重方法、装置、电子设备及计算机可读取存储介质制造方法及图纸

技术编号:35030622 阅读:23 留言:0更新日期:2022-09-24 23:04
本申请提供一种资讯去重方法、装置、电子设备及计算机可读取存储介质,涉及数据处理技术领域。该方法包括:对资讯文本进行处理,得到当前文本向量;对当前文本向量进行验证,若对当前文本向量验证通过,将当前文本向量作为目标文本向量;若对当前文本向量验证未通过,则对当前文本向量进行更新,以得到目标文本向量;基于去重阈值对目标文本向量去重,得到目标资讯文本。本申请能够通过对推荐的资讯文本进行处理、验证、更新等方式,将得到的目标文本向量进行去重,从而得到去重后用于推荐给用户的目标资讯文本,能够对体量较长、维度较广、多种不同环境下的资讯文本都进行去重,有效地减少推荐的资讯中重复、冗余的内容,提高了去重的精度。的精度。的精度。

【技术实现步骤摘要】
资讯去重方法、装置、电子设备及计算机可读取存储介质


[0001]本申请涉及数据处理
,具体而言,涉及一种资讯去重方法、装置、电子设备及计算机可读取存储介质。

技术介绍

[0002]近年来,金融市场受到人们的关注越来越高,各大金融公司,例如各种银行每天可以向用户提供成千上万条的金融资讯供用户浏览。在对银行资讯进行推荐时,可以根据用户的历史行为、身份标签、兴趣属性等数据特征来对相关的资讯进行推荐。但是,推荐过程中容易出现重复、冗余的内容,导致对资讯的推荐效率较低,用户无法准确地获取感兴趣的资讯。

技术实现思路

[0003]有鉴于此,本申请实施例的目的在于提供一种资讯去重方法、装置、电子设备及计算机可读取存储介质,以改善现有技术中存在的推荐的资讯文本中重复内容较多问题。
[0004]为了解决上述问题,第一方面,本申请实施例提供了一种资讯去重方法,所述方法包括:对资讯文本进行处理,得到当前文本向量;对所述当前文本向量进行验证,若对所述当前文本向量验证通过,将所述当前文本向量作为目标文本向量;若对所述当前文本向量验证未通过,则对所述当前文本向量进行更新,以得到目标文本向量;基于去重阈值对所述目标文本向量去重,得到目标资讯文本。
[0005]在上述实现过程中,为了对资讯文本中存在的重复内容进行去除,可以先对资讯文本进行向量化地处理,从而得到当前文本向量,并通过对当前文本向量进行验证,以根据验证结果确定处理后能够进行去重的目标文本向量,根据去重阈值对目标文本向量进行去重。能够对体量较长、维度较广、多种不同环境下的多种资讯文本都进行去重,有效地提高了去重时的精度和效率,减少了推荐的资讯中重复、冗余的内容,为银行中各种使用场景下的资讯推荐提供更多样化的内容,减少因内容重复而降低用户体验的情况。
[0006]可选地,所述对资讯文本进行处理,得到当前文本向量,包括:根据文本处理模型对资讯文本进行处理,得到所述当前文本向量;所述对所述当前文本向量进行更新,以得到目标文本向量,包括:对所述文本处理模型进行更新,确定更新处理模型;根据所述更新处理模型对所述当前文本向量进行更新,以得到所述目标文本向量。
[0007]在上述实现过程中,通过文本处理模型能够对资讯文本进行向量化处理,从而得到用于比较内容之间相似度的当前文本向量。在验证未通过时,则表明文本处理模型的处理效果不佳,需要对文本处理模型进行更新,并根据得到的更新处理模型重新对资讯文本进行处理,得到对当前文本向量更新后的目标文本向量,从而以能够验证通过的目标文本向量进行去重处理。在去重的过程中能够根据资讯文本的向量化结果不断地对文本处理模型的性能进行完善,有效地提高了获取的目标文本向量的准确性和有效性,从而提高去重的精度和效果。
[0008]可选地,所述文本处理模型包括摘要模型、对比模型和降维模型;所述根据文本处理模型对资讯文本进行处理,得到所述当前文本向量,包括:根据所述摘要模型对资讯文本进行提取,得到文本摘要;根据所述对比模型对所述文本摘要进行向量提取,得到初始向量;根据所述降维模型对所述初始向量进行降维,得到所述当前文本向量。
[0009]在上述实现过程中,文本处理模型可以包括多种类型的模型,能够对资讯文本进行摘要提取、向量提取以及降维处理,从而能够将资讯文本的内容进行向量化,以便于对资讯文本中的重复内容进行确定和去除。其中,对资讯文本进行摘要提取,能够对体量较大的长文本进行处理,适用于多种长度的资讯文本;对资讯文本进行向量提取,能够将文本摘要转换为便于进行相似度对比的向量化数据;对提取的初始向量进行降维处理,能够将长度较长且稀疏的初始向量降为多维的向量,便于对向量化数据进行对比和存储。能够通过多种不同功能的模型分别对资讯文本进行相应地处理,有效地提到了当前文本向量的准确性。
[0010]可选地,所述根据所述对比模型对所述文本摘要进行向量提取,得到初始向量之前,所述方法还包括:获取资讯文本训练集,其中,所述资讯文本训练集中包括多条历史资讯文本的语料文本;根据资讯文本训练集对所述对比模型进行对比训练。
[0011]在上述实现过程中,为了提高对比模型对文本摘要进行向量化提取时的准确性,可以通过资讯文本训练集对对比模型进行对比训练,从而根据训练集中的多条语料文本的多次对比训练提高对比模型的学习效果。能够根据对比模型直接对资讯文本进行向量化提取,减去训练向量化相似度模型的标注成本,有效地减小了模型的训练成本。
[0012]可选地,所述对所述文本处理模型进行更新,确定更新处理模型,包括:根据所述当前文本向量对所述对比模型的第一模型参数进行调整,得到第一调整模型参数;根据所述第一调整模型参数对应的所述对比模型、所述摘要模型和所述降维模型对所述资讯文本进行处理,得到第一调整文本向量;基于所述第一调整文本向量对所述摘要模型的第二模型参数进行调整,得到第二调整模型参数;根据所述第一调整模型参数对应的所述对比模型、所述第二调整模型参数对应的所述摘要模型和所述降维模型对所述资讯文本进行处理,得到第二调整文本向量;基于所述第二调整文本向量对所述降维模型的第三模型参数进行调整,得到第三调整模型参数,以所述第一调整模型参数对应的所述对比模型、所述第二调整模型参数对应的所述摘要模型和所述第三调整模型参数对应的所述降维模型作为所述更新处理模型。
[0013]在上述实现过程中,在对文本处理模型进行更新时,由于文本处理模型中包含多个模型,因此,可以分别对多个模型依次进行调参处理,从而通过模型参数的调整对多个模型的处理效果进行对应地调整。在调整时,可以采取对多个模型的模型参数分别进行调整的方式。并且,每个模型的参数调整都是在上一个模型进行调参后得到的调整文本向量的基础上进行的,对当前的某个模型进行调参时,其他模型的参数可以保持不变,对上一个模型进行调参完毕后才对后续的模型进行调参,能够根据顺序依次针对每个模型的处理效果进行调整,从而对每一个模型的处理效果分别进行优化,减小了调参时的成本,有效地提高了对每一个模型进行调参以优化处理效果的准确性和针对性。
[0014]可选地,所述根据所述更新处理模型对所述当前文本向量进行更新,以得到所述目标文本向量,包括:根据所述第一调整模型参数对应的所述对比模型、所述第二调整模型
参数对应的所述摘要模型和所述第三调整模型参数对应的所述降维模型对所述资讯文本进行处理,得到第三调整文本向量;对所述第三调整文本向量进行验证,在对当前的所述第三调整文本向量验证通过时,将当前的所述第三调整文本向量作为所述目标文本向量。
[0015]在上述实现过程中,根据更新后得到的更新处理模型继续对资讯文本进行处理,能够得到对应的第三调整文本向量。第三调整文本向量为处理效果优化后的模型处理得到的向量数据,通过继续对第三调整文本向量进行验证,能够继续对更新处理模型当前的处理效果进行验证,在验证通过时,则表示更新处理模型的处理效果较好,当前的第三调整文本向量能够作为进行去重的目标文本向量,从而有效地提高了去重时所采用的目标文本向量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种资讯去重方法,其特征在于,所述方法包括:对资讯文本进行处理,得到当前文本向量;对所述当前文本向量进行验证,若对所述当前文本向量验证通过,将所述当前文本向量作为目标文本向量;若对所述当前文本向量验证未通过,则对所述当前文本向量进行更新,以得到目标文本向量;基于去重阈值对所述目标文本向量去重,得到目标资讯文本。2.根据权利要求1所述的方法,其特征在于,所述对资讯文本进行处理,得到当前文本向量,包括:根据文本处理模型对资讯文本进行处理,得到所述当前文本向量;所述对所述当前文本向量进行更新,以得到目标文本向量,包括:对所述文本处理模型进行更新,确定更新处理模型;根据所述更新处理模型对所述当前文本向量进行更新,以得到所述目标文本向量。3.根据权利要求2所述的方法,其特征在于,所述文本处理模型包括摘要模型、对比模型和降维模型;所述根据文本处理模型对资讯文本进行处理,得到所述当前文本向量,包括:根据所述摘要模型对资讯文本进行提取,得到文本摘要;根据所述对比模型对所述文本摘要进行向量提取,得到初始向量;根据所述降维模型对所述初始向量进行降维,得到所述当前文本向量。4.根据权利要求3所述的方法,其特征在于,所述根据所述对比模型对所述文本摘要进行向量提取,得到初始向量之前,所述方法还包括:获取资讯文本训练集,其中,所述资讯文本训练集中包括多条历史资讯文本的语料文本;根据资讯文本训练集对所述对比模型进行对比训练。5.根据权利要求3所述的方法,其特征在于,所述对所述文本处理模型进行更新,确定更新处理模型,包括:根据所述当前文本向量对所述对比模型的第一模型参数进行调整,得到第一调整模型参数;根据所述第一调整模型参数对应的所述对比模型、所述摘要模型和所述降维模型对所述资讯文本进行处理,得到第一调整文本向量;基于所述第一调整文本向量对所述摘要模型的第二模型参数进行调整,得到第二调整模型参数;根据所述第一调整模型参数对应的所述对比模型、所述第二调整模型参数对应的所述摘要模型和所述降维模型对所述资讯文本进行处理,得到第二调整文本向量;基于所述第二调整文本向量对所述降维模型的第三模型参数进行调整,得到第三调整模型参数,以所述第一调整模型参数对应的所述对比模型、所述第二调整模型参数对应的所述摘要模型和所述第三调整模型参数对应的所述降维模型作为所述更新处理模型。6.根据权利要求5所述的方法,其特征在于,所述根据所述更新处理模型对所述当前文本向量进行更新,以得到所述目标文本向量,包括:
根据所述第一调整模型参数对应的所述对比模型、所述第二调整模型参数对应的所述...

【专利技术属性】
技术研发人员:李珊
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1