信息处理及获取方法、装置、设备及存储介质制造方法及图纸

技术编号:39396136 阅读:7 留言:0更新日期:2023-11-19 15:50
本公开提供了信息处理及获取方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习技术领域。具体实现方案为:获取待处理信息;按照预设关联规则对待处理信息进行预处理,得到多个信息块;确定相邻的信息块之间的语义相似度;响应于语义相似度大于或等于预设相似度阈值,根据相邻的信息块的文本长度处理相邻的信息块,得到知识块。本公开的信息处理方法依次通过预设关联规则和相邻的信息块之间的语义相似度处理,保证得到的信息块兼顾待处理信息中知识的关联性和完整性,有效提高信息处理质量和效率。提高信息处理质量和效率。提高信息处理质量和效率。

【技术实现步骤摘要】
信息处理及获取方法、装置、设备及存储介质


[0001]本公开涉及计算机
,具体涉及深度学习
,尤其涉及信息处理及获取方法、装置、设备及存储介质。

技术介绍

[0002]在IM(Instant Messaging,即时通讯)会话中,消息通常是短小、即时、分散的,包含的信息碎片化且不连贯,很少以完整的知识单元出现。这使得现有的产品在知识挖掘方面存在较大的盲区:以往产品只关注长文本或结构化文档,而忽略了IM消息中潜在的知识价值。IM消息中蕴含着各种有用的信息和上下文,它们可以提供独特的视角和实时反馈,为我们获取全面的知识提供了机会。

技术实现思路

[0003]本公开提供了一种信息处理及获取方法、装置、设备以及存储介质,能够提升信息处理质量和效率。
[0004]根据本公开的第一方面,提供了一种信息处理方法,包括:
[0005]获取待处理信息;
[0006]按照预设关联规则对待处理信息进行预处理,得到多个信息块;
[0007]确定相邻的信息块之间的语义相似度;
[0008]响应于语义相似度大于或等于预设相似度阈值,根据相邻的信息块的文本长度处理相邻的信息块,得到知识块。
[0009]根据本公开的第二方面,提供了一种信息获取方法,包括:
[0010]获取待处理知识块,待处理知识块通过第一方面提供的方法得到;
[0011]对待处理知识块进行知识提取,得到目标信息。
[0012]根据本公开的第三方面,提供了一种信息处理装置,包括:r/>[0013]第一获取模块,被配置为获取待处理信息;
[0014]预处理模块,被配置为按照预设关联规则对待处理信息进行预处理,得到多个信息块;
[0015]第一确定模块,被配置为确定相邻的信息块之间的语义相似度;
[0016]第一得到模块,被配置为响应于语义相似度大于或等于预设相似度阈值,根据相邻的信息块的文本长度处理相邻的信息块,得到知识块。
[0017]根据本公开的第四方面,提供了一种信息获取装置,包括:
[0018]第二获取模块,被配置为获取待处理知识块,待处理知识块通过第一方面提供的方法得到;
[0019]第二得到模块,被配置为对待处理知识块进行知识提取,得到目标信息。
[0020]根据本公开的第五方面,提供了一种电子设备,包括:
[0021]至少一个处理器;以及
[0022]与至少一个处理器通信连接的存储器;其中,
[0023]存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面或第二方面提供的方法。
[0024]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面或第二方面提供的方法。
[0025]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据第一方面或第二方面提供的方法。
[0026]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0027]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0028]图1示出了可以应用本公开的信息处理方法的示例性系统架构;
[0029]图2示出了根据本公开的信息处理方法的一种实施例的流程图;
[0030]图3示出了根据本公开的信息处理方法的另一种实施例的流程图;
[0031]图4示出了用来实现本公开的信息处理方法的一种场景示意图;
[0032]图5示出了根据本公开的信息获取方法的一种实施例的流程图;
[0033]图6示出了根据本公开的信息获取方法的另一种实施例的流程图;
[0034]图7示出了根据本公开的信息处理装置的一种实施例的示意图;
[0035]图8示出了根据本公开的信息获取装置的一种实施例的示意图;
[0036]图9示出了用来实现本公开实施例的信息处理方法或信息获取方法的电子设备的框图。
具体实施方式
[0037]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0038]相较于文档等其它产品,从IM消息中提取知识更加困难。IM消息通常是短小、即时的,包含的信息碎片化且不连贯,很少以完整的单元知识单元出现,这使得现有的产品在知识挖掘方面存在较大的盲区。通常只关注长文本或结构化数据,而忽略了IM消息中潜在的知识价值。IM消息中蕴含着各种有用的信息和上下文,它们提供独特的视角和实时反馈,为我们获取全面的知识提供了机会。
[0039]采用现有产品处理IM消息时,往往采用基于固定长度或限制长度的切分方法,将消息划分成块。然而,前者将文本按照严格的固定长度进行切分,每个知识块都有相同的大小,导致完整的消息可能被切割成多个知识块、基本的消息单元被打断,无法保证消息格式的完整性;后者是基于消息完整性进行切分,即优先保证每条消息的连续性描述,在不切断单条消息的情况下根据限制长度进行切分,但是往往忽略了消息间的关联性。这种机械式的切分方法无法考虑到知识块所在场景的上下文信息,导致了知识块整体语言的不完整
性。如果只关注块内信息而忽略了上下文,可能会失去关键信息的背景和关联,从而无法准确理解知识的含义和目的。
[0040]本公开提供一种信息处理方法,先基于时间关联性、内容关联性等预设关联规则将即时会话信息预处理为多个信息块,在对相邻的信息块之间的语义相似度进行判断,并据以对信息块处理得到知识块。本公开的信息处理方法更科学的划分会话信息的边界,以符合知识分布的自然边界,能够兼顾信息的完整性和关联性,提升知识处理质量和效率。
[0041]图1示出了可以应用本公开的信息处理或获取方法或信息处理或获取装置的实施例的示例性系统架构100。
[0042]如图1所示,系统架构100可以包括终端设备101、网络102和服务器103。其中,网络102用以在终端设备101和服务器103之间提供通信链路,可以包括各种连接类型,例如,有线通信链路、无线通信链路或者光纤电缆等等。
[0043]用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送信息等。终端设备101上可以安装有各种客户端应用。
[0044]终端设备101可以是硬件,也可以是软件。当终端设备101为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101为软件时,可以安装在上述电子设备中。其可以实现成多本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法,包括:获取待处理信息;按照预设关联规则对所述待处理信息进行预处理,得到多个信息块;确定相邻的所述信息块之间的语义相似度;响应于所述语义相似度大于或等于预设相似度阈值,根据所述相邻的信息块的文本长度处理所述相邻的信息块,得到知识块。2.根据权利要求1所述的方法,其中,所述预设关联规则包括时间关联规则和内容关联规则;以及所述按照预设关联规则对所述待处理信息进行预处理,得到多个信息块,包括:按照所述时间关联规则,对所述待处理信息进行聚类,得到多个信息集合;按照所述内容关联规则,对所述多个信息集合进行处理,得到多个信息块。3.根据权利要求2所述的方法,其中,所述按照所述内容关联规则,对所述多个信息集合进行处理,包括:确定所述待处理信息中内容关联的第一信息和第二信息;响应于所述第一信息和所述第二信息属于同一信息集合,按照出现顺序调整所述第一信息或所述第二信息的位置;响应于所述第一信息和所述第二信息属于不同的信息集合,将所述第二信息复制至所述第一信息所在的信息集合中,并将所述第一信息复制至所述第二信息所在的信息集合中。4.根据权利要求3所述的方法,其中,所述按照出现顺序调整所述第一信息或所述第二信息的位置,包括:确定所述第一信息和所述第二信息的出现顺序;响应于所述第一信息先于所述第二信息出现,将所述第二信息移动至与所述第一信息并列的位置;响应于所述第二信息先于所述第一信息出现,将所述第一信息移动至与所述第二信息并列的位置。5.根据权利要求1所述的方法,其中,所述确定相邻的所述信息块之间的语义相似度,包括:根据所述信息块的向量,确定相邻的所述信息块之间的语义相似度;或者,根据预设的相似度模型,确定相邻的所述信息块之间的语义相似度。6.根据权利要求1所述的方法,其中,所述响应于所述语义相似度大于或等于预设相似度阈值,根据所述相邻的信息块的文本长度处理所述相邻的信息块,得到知识块,包括:响应于所述语义相似度大于或等于预设相似度阈值,获取所述相邻的信息块的文本长度之和;响应于所述文本长度之和小于或等于预设长度阈值,合并所述相邻的信息块,得到知识块;响应于所述文本长度之和大于预设长度阈值,将所述相邻的信息块分别确定为对应的知识块。7.根据权利要求1所述的方法,还包括:
响应于所述语义相似度小于预设相似度阈值,将所述相邻的信息块分别确定为对应的知识块。8.根据权利要求1

7中任一项所述的方法,其中,所述待处理信息包括至少一组即时会话消息。9.一种信息获取方法,包括:获取待处理知识块,所述待处理知识块通过权利要求1

8中任一项所述的方法得到;对所述待处理知识块进行知识提取,得到目标信息。10.根据权利要求9所述的方法,其中,所述对所述待处理知识块进行知识提取,得到目标信息,包括:接收信息获取请求;根据所述信息获取请求,从所述待处理知识块中提取候选知识块;将所述信息获取请求和所述候选知识块输入预设模型,得到目标信息。11.一种信息处理装置,包括:第一获取模块,被配置为获取待处理信息;预处理模块,被配置为按照预设关联规则对所述待处理信息进行预处理,得到多个信息块;第一确定模块,被配置为确定相邻的所述信息块之间的语义相似度;第一得到模块,被配置为响应于所述语义相似度大于或等于预设相似度阈值,根据所述相邻的信息块的...

【专利技术属性】
技术研发人员:张子昱
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1