System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本处理方法和装置、存储介质及电子设备制造方法及图纸_技高网

文本处理方法和装置、存储介质及电子设备制造方法及图纸

技术编号:39993660 阅读:5 留言:0更新日期:2024-01-09 02:32
本申请公开了一种文本处理方法和装置、存储介质及电子设备。其中,该方法包括:获取待响应的问题文本信息,并对问题文本信息进行文字处理,得到目标语句文本,根据目标语句文本中各个分词的词性,对目标语句文本进行成分句法分析,得到目标关键词列表,其中,目标关键词列表包括体现问题文本信息的意图的名词短语,根据目标关键词列表生成答复文本信息。本申请可以应用于基于人工智能的问答模型,包括但不限于用于进行自然语言处理的大语言模型,本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景,本申请解决了相关技术中问答模型由于召回精度较低,导致答复文本不够准确的技术问题。

【技术实现步骤摘要】

本申请涉及计算机领域,具体而言,涉及一种文本处理方法和装置、存储介质及电子设备


技术介绍

1、现有技术中基于llm(large language model,大规模语言模型)的问答系统,在用户意图识别和文档召回方面的各种技术方案,存在一定缺陷:如果对用户问题直接词嵌入,那么当问题涉及多个知识点的查询、比较、过滤、汇总等聚合处理时,问题生成的向量和文档数据库单个知识点的相似度会很低。如果文档召回设置的向量相似度下限较高,或者候选结果数量上限较低,那么部分有效的单个知识点有可能被遗漏,无法出现在召回结果中。反之,降低向量相似度下限,或提高后选结果数量上限。很多无效知识点会进入召回结果中,即降低了召回结果的有效信息密度。这进一步导致llm计算开销增大,且llm可能被无关信息误导,产生错误的结果。如果进行会话式问答,由于单条问句涉及多知识点,要求用户自己主动拆分问题,既不符合人类咨询问题的习惯,又大大拉长了交互链路,浪费用户的时间,也增加了llm的计算开销。而直接通过llm识别用户意图,准确度不够高。llm由于自身技术框架、规模的限制,以及在预训练过程中语料丰富程度的限制,导致对部分专业领域名词或未联网、未公开的业务自定义术语,识别不准确。另外llm自身也不能保证事实性问答的可靠性,经常会出现一些似是而非的结果。

2、总结起来,现有各种方案的缺陷主要集中为三类:第一类,召回精度较低,召回结果可能无法囊括和问题相关的所有知识点,也会包含较多的无关文档。第二类,llm存在时间开销较长,结果不够准确,可能存在事实偏差的问题,那么任何增加和llm交互过程,向llm输入过多无用信息的行为,均会导致llm响应进一步变慢,并可能导致结果出现错误。第三类,使用传统信息提取技术。需要对知识文档做额外处理,并依赖图数据库,维护成本高。

3、因此,本申请要解决的关键问题包括:尽可能减少和llm的交互过程。如果用户咨询的问题涉及多个知识点,用户侧需要主动拆分,用户使用门槛过高,在问题处理模块,依赖于llm实现用户意图识别,增加了llm处理带来的时间开销,也增加了llm处理结果不精准对后续模块产生负面影响。

4、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请实施例提供了一种文本处理方法和装置、存储介质及电子设备,以至少解决相关技术中问答模型由于召回精度较低,导致答复文本不够准确的技术问题。

2、根据本申请实施例的一个方面,提供了一种文本处理方法,包括:获取待响应的问题文本信息,并对所述问题文本信息进行文字处理,得到目标语句文本,其中,所述目标语句文本被划分为至少一个分词,且每个所述分词均标注了词性;根据所述目标语句文本中各个分词的词性,对所述目标语句文本进行成分句法分析,得到目标关键词列表,其中,所述目标关键词列表包括体现所述问题文本信息的意图的名词短语,所述目标关键词列表由第一分词列表中的元素和第二分词列表中的元素进行交叉组合得到,所述第一分词列表中的元素之间在语法结构上具有并列关系,所述第二分词列表中的元素之间在语法结构上具有所述并列关系,所述第一分词列表中的元素与所述第二分词列表中的元素在语法结构上具有非并列关系,所述并列关系与所述非并列关系由元素之间的短语结构类型确定,所述短语结构类型由分词的词性确定;根据所述目标关键词列表生成答复文本信息,其中,所述答复文本信息是基于目标知识分片生成的文本信息,所述目标知识分片表示利用所述目标关键词列表查找到的文本信息。

3、根据本申请实施例的另一方面,还提供了一种文本处理装置,包括:获取模块,用于获取待响应的问题文本信息,并对所述问题文本信息进行文字处理,得到目标语句文本,其中,所述目标语句文本被划分为至少一个分词,且每个所述分词均标注了词性;分析模块,用于根据所述目标语句文本中各个分词的词性,对所述目标语句文本进行成分句法分析,得到目标关键词列表,其中,所述目标关键词列表包括体现所述问题文本信息的意图的名词短语,所述目标关键词列表由第一分词列表中的元素和第二分词列表中的元素进行交叉组合得到,所述第一分词列表中的元素之间在语法结构上具有并列关系,所述第二分词列表中的元素之间在语法结构上具有所述并列关系,所述第一分词列表中的元素与所述第二分词列表中的元素在语法结构上具有非并列关系,所述并列关系与所述非并列关系由元素之间的短语结构类型确定,所述短语结构类型由分词的词性确定;生成模块,用于根据所述目标关键词列表生成答复文本信息,其中,所述答复文本信息是基于目标知识分片生成的文本信息,所述目标知识分片表示利用所述目标关键词列表查找到的文本信息。

4、可选地,所述装置用于通过如下方式根据所述目标语句文本中各个分词的词性,对所述目标语句文本进行成分句法分析,得到目标关键词列表:根据所述目标语句文本中各个分词的词性,对所述目标语句文本进行成分句法分析,得到目标成分语法树,其中,所述目标成分语法树中的节点类型包括叶子节点和非叶子节点,所述叶子节点指示一个分词以及对应的词性,所述非叶子节点表示用于指示所述目标语句文本中的一种短语结构类型;从目标根节点开始对所述目标成分语法树进行先序遍历,确定目标子树,其中,所述目标子树是以目标非叶子节点作为根节点的子树,所述目标非叶子节点是遍历到的首个短语结构类型为名词短语的非叶子节点,所述目标根节点是所述目标成分语法树的根节点;从所述目标非叶子节点开始对所述目标子树进行后序遍历,确定目标分词列表中的各个元素,其中,所述目标子树包括第一目标子树和第二目标子树,所述目标分词列表包括与所述第一目标子树对应的所述第一分词列表以及与所述第二目标子树对应的所述第二分词列表,所述第一分词列表与所述第二分词列表中的元素均是所述目标分词列表中的元素;对所述第一分词列表中的元素和所述第二分词列表中的元素进行交叉组合,得到所述目标关键词列表。

5、可选地,所述装置用于通过如下方式从目标根节点开始对所述目标成分语法树进行先序遍历,确定目标子树:以所述目标根节点为起点对所述目标根节点关联的各个子树分别进行遍历,其中,在对所述各个子树进行遍历的过程中,当遍历到一个所述目标非叶子节点时,视为一个所述子树遍历结束,并将所述目标非叶子节点作为根节点的子树确定为所述目标子树,当未遍历到任何短语结构类型为名词短语的非叶子节点时,视为一个所述子树遍历结束;在所述各个子树均视为遍历结束的情况下,确定所述目标非叶子节点和所述目标子树。

6、可选地,所述装置用于通过如下方式装置用于通过如下方式从所述目标非叶子节点开始对所述目标子树进行后序遍历,确定目标分词列表中的各个元素:以各个所述目标非叶子节点为起点分别对各自对应的所述目标子树进行后序遍历,逐层确定多个节点分词列表,对于遍历过程中的每一个节点,进行如下处理:在遍历至所述叶子节点的情况下,确定所述叶子节点对应的节点分词列表,其中,所述叶子节点对应的节点分词列表包括所述叶子节点关联的分词以及对应的词性;在遍历至非叶子节点的情况下,确定所述非叶子节点对应的节本文档来自技高网...

【技术保护点】

1.一种文本处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述目标语句文本中各个分词的词性,对所述目标语句文本进行成分句法分析,得到目标关键词列表,包括:

3.根据权利要求2所述的方法,其特征在于,所述从目标根节点开始对所述目标成分语法树进行先序遍历,确定目标子树,包括:

4.根据权利要求2所述的方法,其特征在于,所述从所述目标非叶子节点开始对所述目标子树进行后序遍历,确定目标分词列表中的各个元素,包括:

5.根据权利要求4所述的方法,其特征在于,所述对所述多个节点分词列表中同一层级下的节点对应的节点分词列表按照预设语言顺序分别合并,得到所述目标分词列表中的各个元素,包括:

6.根据权利要求4所述的方法,其特征在于,所述对所述多个节点分词列表中同一层级下的节点对应的节点分词列表按照预设语言顺序分别合并,得到所述目标分词列表中的各个元素,包括:

7.根据权利要求4所述的方法,其特征在于,所述对所述多个节点分词列表中同一层级下的节点对应的节点分词列表按照预设语言顺序分别合并,得到所述目标分词列表中的各个元素,包括:

8.根据权利要求1所述的方法,其特征在于,所述方法还包括:

9.根据权利要求8所述的方法,其特征在于,所述根据所述目标关键词列表生成答复文本信息,包括:

10.根据权利要求8所述的方法,其特征在于,所述根据所述目标关键词列表生成答复文本信息,包括:

11.根据权利要求1所述的方法,其特征在于,所述获取待响应的问题文本信息,并对所述问题文本信息进行文字处理,得到目标语句文本,包括:

12.一种文本处理装置,其特征在于,包括:

13.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序可被终端设备或计算机运行时执行所述权利要求1至11任一项中所述的方法。

14.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至11任一项中所述方法的步骤。

15.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至11任一项中所述的方法。

...

【技术特征摘要】

1.一种文本处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述目标语句文本中各个分词的词性,对所述目标语句文本进行成分句法分析,得到目标关键词列表,包括:

3.根据权利要求2所述的方法,其特征在于,所述从目标根节点开始对所述目标成分语法树进行先序遍历,确定目标子树,包括:

4.根据权利要求2所述的方法,其特征在于,所述从所述目标非叶子节点开始对所述目标子树进行后序遍历,确定目标分词列表中的各个元素,包括:

5.根据权利要求4所述的方法,其特征在于,所述对所述多个节点分词列表中同一层级下的节点对应的节点分词列表按照预设语言顺序分别合并,得到所述目标分词列表中的各个元素,包括:

6.根据权利要求4所述的方法,其特征在于,所述对所述多个节点分词列表中同一层级下的节点对应的节点分词列表按照预设语言顺序分别合并,得到所述目标分词列表中的各个元素,包括:

7.根据权利要求4所述的方法,其特征在于,所述对所述多个节点分词列表中同一层级下的节点对应的节点分词列表按照预设语言顺序分别合并,得到所述目标分词列表中的...

【专利技术属性】
技术研发人员:陶文质薛德义
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1