信息获取方法技术

技术编号:39503205 阅读:9 留言:0更新日期:2023-11-24 11:34
本公开提供了信息获取方法

【技术实现步骤摘要】
信息获取方法、装置、设备以及存储介质


[0001]本公开涉及计算机
,具体涉及信息流
,尤其涉及信息获取方法

装置

设备以及存储介质


技术介绍

[0002]在当今快节奏的社交和工作环境中,人们越来越多地倾向于使用
IM(Instant Messaging
,即时通讯
)
进行沟通和交流

然而,
IM
场景下存在一个普遍的问题:信息量庞大,但知识密度相对较低

这给知识的沉淀和推送带来了巨大的挑战,因此需要寻找创新的解决方案


技术实现思路

[0003]本公开提供了一种信息获取方法

装置

设备以及存储介质,提高信息检索和获取精度,增强用户体验

[0004]根据本公开的第一方面,提供了一种信息获取方法,包括:
[0005]接收信息获取任务;
[0006]根据信息获取任务,从候选信息块集合中确定至少一个目标信息块;
[0007]根据信息获取任务的任务文本和至少一个目标信息块,得到拼接文本;
[0008]将拼接文本输入预设模型,得到目标信息

[0009]根据本公开的第二方面,提供了一种信息获取装置,包括:
[0010]接收模块,被配置为接收信息获取任务;
[0011]第一确定模块,被配置为根据信息获取任务,从候选信息块集合中确定至少一个目标信息块;
[0012]拼接模块,被配置为根据信息获取任务的任务文本和至少一个目标信息块,得到拼接文本;
[0013]第一获取模块,被配置为将拼接文本输入预设模型,得到目标信息

[0014]根据本公开的第三方面,提供了一种电子设备,包括:
[0015]至少一个处理器;以及
[0016]与至少一个处理器通信连接的存储器;其中,
[0017]存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面提供的方法

[0018]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面提供的方法

[0019]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据第一方面提供的方法

[0020]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围

本公开的其它特征将通过以下的说明书而变得容易理解

附图说明
[0021]附图用于更好地理解本方案,不构成对本公开的限定

其中:
[0022]图1示出了可以应用本公开的信息获取方法的示例性系统架构;
[0023]图2示出了根据本公开的信息获取方法的一种实施例的示意图;
[0024]图3示出了根据本公开的信息获取方法的另一种实施例的示意图;
[0025]图4是可以实现本公开实施例的信息获取方法的一种场景示意图;
[0026]图5示出了根据本公开的信息获取装置的一种实施例的示意图;
[0027]图6是用来实现本公开实施例的信息获取方法的电子设备的框图

具体实施方式
[0028]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的

因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神

同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述

[0029]IM
会话信息的即时性,人们倾向于追求快速的信息传递,而往往忽略了知识的完整性,导致知识表达过于零碎和分散,不利于直接做信息提炼;并且,
IM
中的信息通常呈碎片化的形式,包括短语

表情符号

链接等,无法提供足够的上下文和详细信息,从而限制了知识的传递和理解

另外,
IM
应用通常没有有效的机制来记录和沉淀重要的知识,即使有一些信息被分享,它们往往很快被新的消息所淹没,难以再次访问

[0030]当前的相关技术中对
IM
信息中的知识检索有两种:一种是基于关键词为主的知识检索,另一种是基于
LLM
大语言模型为主的问答助手

前者主要是系统根据用户输入的关键词匹配相关的信息和知识,以提供用户所需的信息,能够满足用户快速获取一般性问题答案的需求,但是无法在语义层面上进行准确匹配

后者基于
LLM
的问答助手能够理解和处理复杂的自然语言环境,并提供准确

详细的答案;但这类助手只能感知到开放的知识库,并不能有效地对私有库进行学习和感知,导致
IM
场景的高关联性知识往往被忽视

[0031]可见,传统检索方式要求用户构思准确的关键词,而当用户无法选择合适的检索关键词时,很难从零散的信息中找到满足其需求的内容,极大程度限制了用户在获取所需信息方面的效率和准确性


LLM
模型主要依赖通用知识库,导致在
IM
场景中有价值的知识无法被充分利用,无法满足用户对特定领域知识的获取需求;并且即使支持对私有化知识的
LLM
训练,
LLM
模型无法区分用户权限,导致经过历史信息训练的
LLM
出现在某些情况下向第三方泄露用户隐私的潜在风险

[0032]本公开提供了一种信息获取方法,将语义碎片化的
IM
会话信息转化为候选信息块集合,根据信息获取任务,从该候选信息块集合中确定至少一个目标信息块,并根据信息获取任务的任务文本和目标信息块,得到拼接文本,将该拼接文本输入预设模型,从而得到目标信息

本公开通过对信息获取任务进行解析

并据以对各候选信息块中的信息进行深层次挖掘

筛选,提高检索精度,可以精准发现
IM
会话中被遗漏的潜在知识,增加用户的知识获取渠道,优化用户体验

[0033]图1示出了可以应用本公开的信息获取方法或信息获取装置的实施例的示例性系统架构
100。
[0034]如图1所示,系统架构
100
可以包括终端设备
101、
网络
102
和服务器
103。
其中,网络
1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种信息获取方法,包括:接收信息获取任务;根据所述信息获取任务,从候选信息块集合中确定至少一个目标信息块;根据所述信息获取任务的任务文本和所述至少一个目标信息块,得到拼接文本;将所述拼接文本输入预设模型,得到目标信息
。2.
根据权利要求1所述的方法,还包括:确定所述信息获取任务的发送方的信息获取权限;根据所述信息获取权限,获取所述候选信息块集合
。3.
根据权利要求1或2所述的方法,其中,所述候选信息块集合包括至少一组会话信息对应的候选信息块,以及所述根据所述信息获取任务,从候选信息块集合中确定至少一个目标信息块,包括:确定所述任务文本的任务向量和所述候选信息块的信息向量;根据所述任务向量与所述信息向量之间的语义相似度,从所述候选信息块集合中确定至少一个目标信息块
。4.
根据权利要求3所述的方法,其中,所述根据所述任务向量与所述信息向量之间的语义相似度,从所述候选信息块集合中确定至少一个目标信息块,包括:根据所述任务向量与所述信息向量之间的余弦相似度或词移距离,确定所述任务向量与所述信息向量之间的语义相似度;从所述候选信息块集合中选取所述语义相似度最高的至少一个候选信息块,确定为目标信息块
。5.
根据权利要求1或2所述的方法,其中,所述根据所述信息获取任务的任务文本和所述至少一个目标信息块,得到拼接文本,包括:确定所述信息获取任务的补充描述信息;依次拼接所述任务文本

所述至少一个目标信息块和所述补充描述信息,得到拼接文本
。6.
根据权利要求1或2所述的方法,其中,所述将所述拼接文本输入预设模型,得到目标信息,包括:确定所述预设模型的许可文本长度阈值;响应于所述拼接文本的文本长度大于所述许可文本长度阈值,减少所述目标信息块的数量,并更新所述拼接文本;响应于所述拼接文本的文本长度小于或等于所述许可文本长度阈值,将所述拼接文本输入预设模型,得到目标信息
。7.
根据权利要求1或2所述的方法,其中,所述候选信息块集合包括至少一组会话信息对应的候选信息块,以及所述候选信息块集合通过如下方式得到:按照预设关联规则对所述会话信息进行预处理,得到多个初始信息块;根据相邻的初始信息块之间的语义相似度,得到候选信息块集合
。8.
根据权利要求7所述的方法,其中,所述预设关联规则包括时间关联规则和内容关联规则;以及
按照预设关联规则对所述会话信息进行预处理,得到多个初始信息块,包括:按照所述时间关联规则,对所述会话信息进行聚类,得到聚类信息集合;按照所述内容关联规则,对所述聚类信息集合进行处理,得到多个初始信息块
。9.
一种信息获取装置,包括:接收模块,被配置为接收信息获取任务;第一确定模块,被配置为根据所述信息获取任务,从候选信息块集合中确定至少一个目标信息块;拼接模块,被配置为根据所述信息获取任务的任务文本和所述至少一个目标信息块,得到拼接文本;第一获取模块,被配置为将所述拼接文本输入预设模型,得到目标信息
。10.
根据权利要求9所述的装置,还包括:第二确定模块,被配置为确定所述信息获...

【专利技术属性】
技术研发人员:张子昱
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1