【技术实现步骤摘要】
文本生成方法及装置
[0001]本文件涉及数据处理领域,尤其涉及一种文本生成方法及装置。
技术介绍
[0002]随着互联网技术的发展,业务涉及的业务数据量高速增长中。在实际业务场景中,海量的业务数据中可能隐含有一些特殊的规律。为了满足一些业务的数据分析需求,可能需要对海量的业务数据进行聚类以找出具有代表性的典型业务数据,在聚类过程中,往往难以兼顾高准确性和高代表性,不利于后续的数据分析。
技术实现思路
[0003]本说明书一个或多个实施例提供了一种文本生成方法。所述文本生成方法,包括:对文本集合中每个文本进行主题识别处理,得到每个所述文本的主题,以及,对每个所述文本进行知识点抽取处理,得到每个所述文本中包含的知识点信息集合;所述知识点信息集合包括至少一种知识点信息;每种所述知识点信息对应于预设知识点集合中的一个知识点。根据所述主题和所述知识点信息集合,确定多个子主题;每个所述子主题归属于一个所述主题且每个所述子主题对应于一个知识点信息组合;所述知识点信息组合包括所述预设知识点集合中每个知识点的一种知识点信息。根据所述主题和所述知识点信息集合,构建每个所述子主题对应的文本关系图;所述文本关系图包括多个节点;每个所述节点对应于所述子主题关联的一个目标文本;所述目标文本中包含的知识点信息集合为所述子主题对应的知识点信息组合的子集。根据每个所述子主题对应的文本关系图,生成所述文本集合对应的案例文本。
[0004]本说明书一个或多个实施例提供了一种文本生成装置,包括:文本处理模块,被配置为对文本集合中每 ...
【技术保护点】
【技术特征摘要】
1.一种文本生成方法,包括:对文本集合中每个文本进行主题识别处理,得到每个所述文本的主题,以及,对每个所述文本进行知识点抽取处理,得到每个所述文本中包含的知识点信息集合;所述知识点信息集合包括至少一种知识点信息;每种所述知识点信息对应于预设知识点集合中的一个知识点;根据所述主题和所述知识点信息集合,确定多个子主题;每个所述子主题归属于一个所述主题且每个所述子主题对应于一个知识点信息组合;所述知识点信息组合包括所述预设知识点集合中每个知识点的一种知识点信息;根据所述主题和所述知识点信息集合,构建每个所述子主题对应的文本关系图;所述文本关系图包括多个节点;每个所述节点对应于所述子主题关联的一个目标文本;所述目标文本中包含的知识点信息集合为所述子主题对应的知识点信息组合的子集;根据每个所述子主题对应的文本关系图,生成所述文本集合对应的案例文本。2.根据权利要求1所述的方法,所述对每个所述文本进行知识点抽取处理,得到每个所述文本中包含的知识点信息集合,包括:针对每个所述文本,按照预设的知识点关键词集合,对所述文本进行关键词抽取,得到所述文本中包含的知识点关键词;所述知识点关键词集合包括所述预设知识点集合中每个所述知识点对应的多个预设关键词;每个所述预设关键词对应于一种知识点信息;将所述知识点关键词对应的知识点信息确定为所述文本中包含的一种知识点信息。3.根据权利要求1所述的方法,所述根据所述主题和所述知识点信息集合,构建每个所述子主题对应的文本关系图,包括:根据每个所述文本、所述主题和所述知识点信息集合,确定每个所述子主题对应的第一候选文本;针对每个所述子主题,基于所述子主题对应的第一候选文本,构建所述子主题对应的初始文本关系图;所述初始文本关系图包括多个候选节点和多条边;在所述初始文本关系图中,任意两个具有相同的知识点信息的所述第一候选文本分别对应的候选节点之间具有一条边;对所述初始文本关系图进行图聚类,得到聚类结果;根据所述聚类结果,确定所述初始文本关系图中的冗余节点;在所述初始文本关系图中剔除所述冗余节点,得到所述子主题对应的文本关系图。4.根据权利要求3所述的方法,所述根据每个所述文本、所述主题和所述知识点信息集合,确定每个所述子主题对应的第一候选文本,包括:根据每个所述文本、所述主题和所述知识点信息集合,确定每个所述子主题对应的第二候选文本;每个所述第二候选文本中包含的知识点信息集合为所述子主题对应的知识点信息组合的子集;根据每个所述第二候选文本对应的知识点数量与每个所述主题对应的知识点数量阈值,对每个所述子主题对应的第二候选文本进行筛选,得到每个所述子主题对应的第一候选文本。5.根据权利要求3所述的方法,所述对所述初始文本关系图进行图聚类,得到聚类结果,包括:
通过图聚类将所述初始文本关系图划分为多个关系子图;所述根据所述聚类结果,确定所述初始文本关系图中的冗余节点,包括:在多个所述关系子图中,将候选节点数量最多的关系子图确定为目标关系子图;将所述目标关系子图之外的其他关系子图包括的候选节点确定为所述初始文本关系图中的冗余节点。6.根据权利要求3所述的方法,所述对所述初始文本关系图进行图聚类,得到聚类结果之前,还包括:通过文本比对模型中的向量生成模块生成每个所述文本对应的表征向量;在所述初始文本关系图中,针对每条边,若根据预设向量距离阈值和所述边连接的两个所述候选节点分别对应的表征向量确定所述边为冗余边,则剔除所述冗余边。7.根据权利要求6所述的方法,所述文本比对模型通过如下方式训练得到:根据每个所述文本、所述主题以及所述知识点信息集合,构建相似对;所述相似对包括两个相似文本;两个所述相似文本的主题和知识点信息集合均相同;根据所述相似对,对初始文本比对模型进行训练,得到训练后的所述文本比对模型。8.根据权利要求1所述的方法,所述根据每个所述子主题对应的文本关系图,生成所述文本集合对应的案例文本,包括:统计每个所述子主题对应的文本关系图中的节点数量;将所述节点数量大于等于第一数量阈值的子主题确定为目标子主题;根据所述目标子主题对应的文本关系图,生成所述目标子主题对应的案例文本,将所述目标子主题对应的案例文本确定为所述文本集合对应的案例文本。9.根据权利要求1所述的方法,所述根据每...
【专利技术属性】
技术研发人员:高利翠,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。