文本生成方法及装置制造方法及图纸

技术编号:37720932 阅读:10 留言:0更新日期:2023-06-02 00:20
本说明书实施例提供了文本生成方法及装置,文本生成方法包括:对文本集合中每个文本进行主题识别处理,得到每个文本的主题,以及,对每个文本进行知识点抽取处理,得到每个文本中包含的知识点信息集合;根据主题和知识点信息集合,确定多个子主题;根据主题和知识点信息集合,构建每个子主题对应的文本关系图;文本关系图包括多个节点;每个节点对应于子主题关联的一个目标文本;目标文本中包含的知识点信息集合为子主题对应的知识点信息组合的子集;根据每个子主题对应的文本关系图,生成文本集合对应的案例文本。本集合对应的案例文本。本集合对应的案例文本。

【技术实现步骤摘要】
文本生成方法及装置


[0001]本文件涉及数据处理领域,尤其涉及一种文本生成方法及装置。

技术介绍

[0002]随着互联网技术的发展,业务涉及的业务数据量高速增长中。在实际业务场景中,海量的业务数据中可能隐含有一些特殊的规律。为了满足一些业务的数据分析需求,可能需要对海量的业务数据进行聚类以找出具有代表性的典型业务数据,在聚类过程中,往往难以兼顾高准确性和高代表性,不利于后续的数据分析。

技术实现思路

[0003]本说明书一个或多个实施例提供了一种文本生成方法。所述文本生成方法,包括:对文本集合中每个文本进行主题识别处理,得到每个所述文本的主题,以及,对每个所述文本进行知识点抽取处理,得到每个所述文本中包含的知识点信息集合;所述知识点信息集合包括至少一种知识点信息;每种所述知识点信息对应于预设知识点集合中的一个知识点。根据所述主题和所述知识点信息集合,确定多个子主题;每个所述子主题归属于一个所述主题且每个所述子主题对应于一个知识点信息组合;所述知识点信息组合包括所述预设知识点集合中每个知识点的一种知识点信息。根据所述主题和所述知识点信息集合,构建每个所述子主题对应的文本关系图;所述文本关系图包括多个节点;每个所述节点对应于所述子主题关联的一个目标文本;所述目标文本中包含的知识点信息集合为所述子主题对应的知识点信息组合的子集。根据每个所述子主题对应的文本关系图,生成所述文本集合对应的案例文本。
[0004]本说明书一个或多个实施例提供了一种文本生成装置,包括:文本处理模块,被配置为对文本集合中每个文本进行主题识别处理,得到每个所述文本的主题,以及,对每个所述文本进行知识点抽取处理,得到每个所述文本中包含的知识点信息集合;所述知识点信息集合包括至少一种知识点信息;每种所述知识点信息对应于预设知识点集合中的一个知识点。子主题确定模块,被配置为根据所述主题和所述知识点信息集合,确定多个子主题;每个所述子主题归属于一个所述主题且每个所述子主题对应于一个知识点信息组合;所述知识点信息组合包括所述预设知识点集合中每个知识点的一种知识点信息。关系图构建模块,被配置为根据所述主题和所述知识点信息集合,构建每个所述子主题对应的文本关系图;所述文本关系图包括多个节点;每个所述节点对应于所述子主题关联的一个目标文本;所述目标文本中包含的知识点信息集合为所述子主题对应的知识点信息组合的子集。文本生成模块,被配置为根据每个所述子主题对应的文本关系图,生成所述文本集合对应的案例文本。
[0005]本说明书一个或多个实施例提供了一种文本生成设备,包括:处理器;以及,被配置为存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器:对文本集合中每个文本进行主题识别处理,得到每个所述文本的主题,以及,对每个所述文
本进行知识点抽取处理,得到每个所述文本中包含的知识点信息集合;所述知识点信息集合包括至少一种知识点信息;每种所述知识点信息对应于预设知识点集合中的一个知识点。根据所述主题和所述知识点信息集合,确定多个子主题;每个所述子主题归属于一个所述主题且每个所述子主题对应于一个知识点信息组合;所述知识点信息组合包括所述预设知识点集合中每个知识点的一种知识点信息。根据所述主题和所述知识点信息集合,构建每个所述子主题对应的文本关系图;所述文本关系图包括多个节点;每个所述节点对应于所述子主题关联的一个目标文本;所述目标文本中包含的知识点信息集合为所述子主题对应的知识点信息组合的子集。根据每个所述子主题对应的文本关系图,生成所述文本集合对应的案例文本。
[0006]本说明书一个或多个实施例提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下流程:对文本集合中每个文本进行主题识别处理,得到每个所述文本的主题,以及,对每个所述文本进行知识点抽取处理,得到每个所述文本中包含的知识点信息集合;所述知识点信息集合包括至少一种知识点信息;每种所述知识点信息对应于预设知识点集合中的一个知识点。根据所述主题和所述知识点信息集合,确定多个子主题;每个所述子主题归属于一个所述主题且每个所述子主题对应于一个知识点信息组合;所述知识点信息组合包括所述预设知识点集合中每个知识点的一种知识点信息。根据所述主题和所述知识点信息集合,构建每个所述子主题对应的文本关系图;所述文本关系图包括多个节点;每个所述节点对应于所述子主题关联的一个目标文本;所述目标文本中包含的知识点信息集合为所述子主题对应的知识点信息组合的子集。根据每个所述子主题对应的文本关系图,生成所述文本集合对应的案例文本。
附图说明
[0007]为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;
[0008]图1为本说明书一个或多个实施例提供的一种文本生成方法处理流程图;
[0009]图2为本说明书一个或多个实施例提供的另一种文本生成方法处理流程图;
[0010]图3为本说明书一个或多个实施例提供的一种文本生成方法中生成的文本关系图;
[0011]图4为本说明书一个或多个实施例提供的一种文本生成装置示意图;
[0012]图5为本说明书一个或多个实施例提供的一种文本生成设备的结构示意图。
具体实施方式
[0013]为了使本
的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
[0014]本说明书提供的一种文本生成方法实施例:
[0015]本实施例提供的文本生成方法,通过对文本集合中每个文本进行主题识别处理和知识抽取处理,可以得到每个文本的主题和文本中包含的知识点信息集合,从而结合主题与多个知识点将每个主题划分为多个子主题,针对每个子主题,构建文本关系图,该文本关系图中每个节点对应的目标文本中包含的知识点信息集合为子主题对应的知识点信息组合的子集,使得该文本关系图中各个节点对应的目标文本的主题相同且与子主题对应的知识点信息组合至少具有一部分相同的知识点信息,进而,根据文本关系图生成案例文本,使得该案例文本具有较高的准确性,且案例文本涉及各个知识点,内容较为全面。
[0016]参照图1,本实施例提供的文本生成方法,具体包括步骤S102至步骤S108。
[0017]步骤S102,对文本集合中每个文本进行主题识别处理,得到每个文本的主题,以及,对每个文本进行知识点抽取处理,得到每个文本中包含的知识点信息集合;知识点信息集合包括至少一种知识点信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本生成方法,包括:对文本集合中每个文本进行主题识别处理,得到每个所述文本的主题,以及,对每个所述文本进行知识点抽取处理,得到每个所述文本中包含的知识点信息集合;所述知识点信息集合包括至少一种知识点信息;每种所述知识点信息对应于预设知识点集合中的一个知识点;根据所述主题和所述知识点信息集合,确定多个子主题;每个所述子主题归属于一个所述主题且每个所述子主题对应于一个知识点信息组合;所述知识点信息组合包括所述预设知识点集合中每个知识点的一种知识点信息;根据所述主题和所述知识点信息集合,构建每个所述子主题对应的文本关系图;所述文本关系图包括多个节点;每个所述节点对应于所述子主题关联的一个目标文本;所述目标文本中包含的知识点信息集合为所述子主题对应的知识点信息组合的子集;根据每个所述子主题对应的文本关系图,生成所述文本集合对应的案例文本。2.根据权利要求1所述的方法,所述对每个所述文本进行知识点抽取处理,得到每个所述文本中包含的知识点信息集合,包括:针对每个所述文本,按照预设的知识点关键词集合,对所述文本进行关键词抽取,得到所述文本中包含的知识点关键词;所述知识点关键词集合包括所述预设知识点集合中每个所述知识点对应的多个预设关键词;每个所述预设关键词对应于一种知识点信息;将所述知识点关键词对应的知识点信息确定为所述文本中包含的一种知识点信息。3.根据权利要求1所述的方法,所述根据所述主题和所述知识点信息集合,构建每个所述子主题对应的文本关系图,包括:根据每个所述文本、所述主题和所述知识点信息集合,确定每个所述子主题对应的第一候选文本;针对每个所述子主题,基于所述子主题对应的第一候选文本,构建所述子主题对应的初始文本关系图;所述初始文本关系图包括多个候选节点和多条边;在所述初始文本关系图中,任意两个具有相同的知识点信息的所述第一候选文本分别对应的候选节点之间具有一条边;对所述初始文本关系图进行图聚类,得到聚类结果;根据所述聚类结果,确定所述初始文本关系图中的冗余节点;在所述初始文本关系图中剔除所述冗余节点,得到所述子主题对应的文本关系图。4.根据权利要求3所述的方法,所述根据每个所述文本、所述主题和所述知识点信息集合,确定每个所述子主题对应的第一候选文本,包括:根据每个所述文本、所述主题和所述知识点信息集合,确定每个所述子主题对应的第二候选文本;每个所述第二候选文本中包含的知识点信息集合为所述子主题对应的知识点信息组合的子集;根据每个所述第二候选文本对应的知识点数量与每个所述主题对应的知识点数量阈值,对每个所述子主题对应的第二候选文本进行筛选,得到每个所述子主题对应的第一候选文本。5.根据权利要求3所述的方法,所述对所述初始文本关系图进行图聚类,得到聚类结果,包括:
通过图聚类将所述初始文本关系图划分为多个关系子图;所述根据所述聚类结果,确定所述初始文本关系图中的冗余节点,包括:在多个所述关系子图中,将候选节点数量最多的关系子图确定为目标关系子图;将所述目标关系子图之外的其他关系子图包括的候选节点确定为所述初始文本关系图中的冗余节点。6.根据权利要求3所述的方法,所述对所述初始文本关系图进行图聚类,得到聚类结果之前,还包括:通过文本比对模型中的向量生成模块生成每个所述文本对应的表征向量;在所述初始文本关系图中,针对每条边,若根据预设向量距离阈值和所述边连接的两个所述候选节点分别对应的表征向量确定所述边为冗余边,则剔除所述冗余边。7.根据权利要求6所述的方法,所述文本比对模型通过如下方式训练得到:根据每个所述文本、所述主题以及所述知识点信息集合,构建相似对;所述相似对包括两个相似文本;两个所述相似文本的主题和知识点信息集合均相同;根据所述相似对,对初始文本比对模型进行训练,得到训练后的所述文本比对模型。8.根据权利要求1所述的方法,所述根据每个所述子主题对应的文本关系图,生成所述文本集合对应的案例文本,包括:统计每个所述子主题对应的文本关系图中的节点数量;将所述节点数量大于等于第一数量阈值的子主题确定为目标子主题;根据所述目标子主题对应的文本关系图,生成所述目标子主题对应的案例文本,将所述目标子主题对应的案例文本确定为所述文本集合对应的案例文本。9.根据权利要求1所述的方法,所述根据每...

【专利技术属性】
技术研发人员:高利翠
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1