文本处理方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:36895915 阅读:17 留言:0更新日期:2023-03-15 22:31
本公开提供了一种文本处理方法、装置、电子设备和存储介质,涉及人工智能领域,尤其涉及基于人工智能的自然语言处理技术领域。实现方案为:获得待处理文本,待处理文本包括两个对象之间的问答语句;从结构化字段集中,获得与待处理文本对应的至少一个结构化字段,结构化字段集中的每一个结构化字段对应于一个问句,并且该问句对应于多个答案;针对至少一个结构化字段中的每一个结构化字段,获得待处理文本对应于该结构化字段的结构化处理结果;以及基于待处理文本对应于至少一个结构化字段中的每一个结构化字段的结构化处理结果,获得待处理文本的结构化信息。待处理文本的结构化信息。待处理文本的结构化信息。

【技术实现步骤摘要】
文本处理方法、装置、电子设备以及存储介质


[0001]本公开涉及人工智能
,尤其涉及基于人工智能的自然语言处理,具体涉及一种文本处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]基于人工智能的自然语言处理技术,通过分析语言文本,提取语言文本的语义,理解语言文本,已经应用于广泛的领域。例如,在医疗场景中,通过分析语音客服对病患进行语音随访过程中的对话,能够对病患的信息进行处理,获得医生所需要的信息,使得医生无需亲自随访,就能获得病患病情或者康复情况,提升医生工作效率。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种文本处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面,提供了一种文本处理方法,包括:获得待处理文本,所述待处理文本包括两个对象之间的问答语句;从结构化字段集中,获得与所述待处理文本对应的至少一个结构化字段,所述结构化字段集中的每一个结构化字段对应于一个问句,并且该问句对应于多个答案;针对所述至少一个结构化字段中的每一个结构化字段,获得所述待处理文本对应于该结构化字段的结构化处理结果,该结构化处理结果指示针对与该结构化字段所对应的问句,在所述多个答案中的与所述待处理文本的问答语句相应的答案;以及基于所述待处理文本对应于所述至少一个结构化字段中的每一个结构化字段的结构化处理结果,获得所述待处理文本的结构化信息。
[0007]根据本公开的另一方面,提供了一种文本处理装置,包括:待处理文本获取单元,被配置用于获得待处理文本,所述待处理文本包括两个对象之间的问答语句;结构化字段获取单元,被配置用于从结构化字段集中,获得与所述待处理文本对应的至少一个结构化字段,所述结构化字段集中的每一个结构化字段对应于一个问句,并且该问句对应于多个答案;结构化处理结果获取单元,被配置用于针对所述至少一个结构化字段中的每一个结构化字段,获得所述待处理文本对应于该结构化字段的结构化处理结果,该结构化处理结果指示针对与该结构化字段所对应的问句,在所述多个答案中的与所述待处理文本的问答
语句相应的答案;以及结构化信息获取单元,被配置用于基于所述待处理文本对应于所述至少一个结构化字段中的每一个结构化字段的结构化处理结果,获得所述待处理文本的结构化信息。
[0008]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据本公开的实施例所述的方法。
[0009]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开的实施例所述的方法。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现根据本公开的实施例所述的方法。
[0011]根据本公开的一个或多个实施例,可以提升从包含两个对象之间的问答语句的文本中所提取的结构化信息的准确性。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0014]图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
[0015]图2示出了根据本公开的实施例的文本处理方法的流程图;
[0016]图3示出了根据本公开的实施例的文本处理方法中针对至少一个结构化字段中的每一个结构化字段获得待处理文本对应于该结构化字段的结构化处理结果的过程的流程图;
[0017]图4示出了根据本公开的实施例的文本处理方法中所涉及的双塔模型的示意图;
[0018]图5示出了根据本公开的实施例的文本处理方法中针对至少一个结构化字段中的每一个结构化字段获得待处理文本对应于该结构化字段的结构化处理结果的过程的流程图;
[0019]图6示出了根据本公开的实施例的文本处理方法中基于至少一个结构化字段中的每一个结构化字段的结构化处理结果,获得待处理文本的结构化信息的过程的流程图;
[0020]图7示出了根据本公开的实施例的文本处理方法的流程图;
[0021]图8示出了根据本公开的实施例的文本处理装置的结构框图;以及
[0022]图9示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0023]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识
到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0024]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个要素与另一要素区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0025]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
[0026]下面将结合附图详细描述本公开的实施例。
[0027]图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1,该系统100包括一个或多个客户端设备101、102、103、104、105本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,包括:获得待处理文本,所述待处理文本包括两个对象之间的问答语句;从结构化字段集中,获得与所述待处理文本对应的至少一个结构化字段,所述结构化字段集中的每一个结构化字段对应于一个问句,并且该问句对应于多个答案;针对所述至少一个结构化字段中的每一个结构化字段,获得所述待处理文本对应于该结构化字段的结构化处理结果,该结构化处理结果指示针对与该结构化字段所对应的问句,在所述多个答案中的与所述待处理文本的问答语句相应的答案;以及基于所述待处理文本对应于所述至少一个结构化字段中的每一个结构化字段的结构化处理结果,获得所述待处理文本的结构化信息。2.根据权利要求1所述的方法,其中,所述针对所述至少一个结构化字段中的每一个结构化字段,获得所述待处理文本对应于该结构化字段的结构化处理结果包括:获得所述待处理文本对应的特征向量;获得所述至少一个结构化字段中的每一个结构化字段对应的特征向量;以及针对所述至少一个结构化字段中的每一个结构化字段,基于该结构化字段对应的特征向量和所述待处理文本对应的特征向量,获得所述待处理文本对应于该结构化字段的结构化处理结果。3.根据权利要求2所述的方法,其中,所述获得所述待处理文本对应的特征向量包括:通过将所述待处理文本输入到第一向量处理网络,获得待处理文本对应的特征向量;其中,所述第一向量处理网络通过采用训练文本和训练文本对应的至少一个结构化字段训练包含所述第一向量处理网络、第二向量处理网络和分类网络的双塔模型训练而获得的,其中,所述多个训练文本中的每一个训练文本包括问答语句,所述至少一个结构化字段中的每一个结构化字段与所述训练文本中的问答语句对应的至少一个问句分别对应,所述第一向量处理网络用于获得所述训练文本对应的特征向量,所述第二向量网络用于获得所述至少一个结构化字段中的每一个结构化字段对应的特征向量,以及所述分类网络用于基于所述至少一个结构化字段中的每一个结构化字段对应的特征向量和相应的训练文本对应的特征向量获得相应的分类结果,该分类结果指示针对该结构化字段对应的问句,在所述多个答案中的与所述训练文本的问答语句相应的答案。4.根据权利要求3所述的方法,其中,所述获得所述至少一个结构化字段中的每一个结构化字段对应的特征向量包括:从包括所述多个结构化字段对应的多个特征向量的特征向量集中,获得所述至少一个结构化字段中的每一个结构化字段对应的特征向量,其中,所述特征向量集中的每一个特征向量是将相应的结构化字段输入到所述第二向量处理网络获得的。5.根据权利要求1所述的方法,其中,所述至少一个结构化字段中的第一结构化字段包括属性词,所述针对所述至少一个结构化字段中的每一个结构化字段,获得所述待处理文本对应于该结构化字段的结构化处理结果包括:响应于确定所述待处理文本中包括与所述属性词相应的语义关联词,将所述待处理文本中的所述语义关联词替换为属性词,以获得更新文本;以及
基于所述更新文本,获得所述待处理文本对应于所述至少一个结构化字段中的每一个结构化字段的结构化处理结果。6.根据权利要求1所述的方法,所述基于所述至少一个结构化字段中的每一个结构化字段的结构化处理结果,获得所述待处理文本的结构化信息包括:获得所述至少一个结构化字段中的第一结构化字段和第二结构化字段之间的关联关系,所述关联关系包括因果关系或并列关系;基于所述关联关系,合并所述第一结构化字段对应的结构化处理结果和第二结构化字段对应的结构化处理结果,以获得合并结果;以及基于所述合并结果,获得所述结构化信息。7.根据权利要求1

6中任一项所述的方法,还包括:确定所述待处理文本是否包括与数值范围对应的数值范围词;响应于确定所述待处理文本包括与数值范围对应的数值范围词,获得所述待处理文本的第二结构化处理结果,所述第二结构化处理结果包括所述数值范围对应的数字,以及其中,所述基于所述至少一个结构化字段中的每一个结构化字段的结构化处理结果,获得所述待处理文本的结构化信息包括:所述基于所述至少一个结构化字段中的每一个结构化字段的结构化处理结果和所述第二结构化处理结果,获得所述待处理文本的结构化信息。8.根据权利要求6所述的方法,其中,所述确定所述待处理文本是否包括与数值范围对应的数值范围词包括:响应于所述数值范围词中包括多个计量单位中的至少一个计量单元,确定所述待处理文本不包括与数值范围对应的数值范围词。9.根据权利要求1

6中任一项所述的方法,还包括:响应于确定所述待处理文本包括与时间范围对应的时间范围词,获得所述待处理文本的第三结构化处理结果,所述第三结构化处理结果指示所述时间范围,以及其中,所述基于所述至少一个结构化字段中的每一个结构化字段的结构化处理结果,获得所述待处理文本的结构化信息包括:所述基于所述至少一个结构化字段中的每一个结构化字段的结构化处理结果和所述第三结构化处理结果,获得所述待处理文本的结构化信息。10.一种文本处理装置,包括:待处理文本获取单元,被配置用于获得待处理文本,所述待处理文本包括两个对象之间的问答语句;结构化字段获取单元,被配置用于从结构化字段集中,获得与所述待处理文本对应的至少一个结构化字段,所述结构化字段集中的每一个结构化字段对应于一个问句,并且该问句对应于多个答案;结构化处理结果获取单元,被配置用于针对所述至少一个结构化字段中的...

【专利技术属性】
技术研发人员:许嘉宇夏源施振辉王春宇代小亚黄海峰王磊陆超
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1