一种文本生成方法、装置及可读存储介质制造方法及图纸

技术编号:39055861 阅读:40 留言:0更新日期:2023-10-12 19:49
本发明专利技术提供了一种文本生成方法、装置及可读存储介质,其中,所述文本生成方法包括:获得用户输入的文本检索信息;确定采用所述文本检索信息检索得到的已知文本集合,所述已知文本集合包括至少一个已知文本;通过自动提取模型从各个所述已知文本中提取关键内容;生成至少包括所述关键内容的目标文本。用于提高文本检索效率。索效率。索效率。

【技术实现步骤摘要】
一种文本生成方法、装置及可读存储介质


[0001]本专利技术涉及计算机
,特别涉及一种文本生成方法、装置及可读存储介质。

技术介绍

[0002]信息检索是从大量的文档集合中获取与用户需求相关的信息资源,并对这些资源进行排序,返回给用户。它是现有的搜索引擎中必不可少的技术,而语义检索则进一步缩小了用户输入的限制,不再拘泥于关键字词或者表面的文字匹配,而是通过模型理解语义,进而准确捕捉到用户的真正意图。
[0003]如何提高文本检索效率成为急需解决的技术问题。

技术实现思路

[0004]本专利技术提供了一种文本生成方法、装置及可读存储介质,用于提高文本检索效率。
[0005]第一方面,本专利技术实施例提供了一种文本生成方法,包括:
[0006]获得用户输入的文本检索信息;
[0007]确定采用所述文本检索信息检索得到的已知文本集合,所述已知文本集合包括至少一个已知文本;
[0008]通过自动提取模型从各个所述已知文本中提取关键内容;
[0009]生成至少包括所述关键内容的目标文本。
[0010]在一种可能的实现方式中,若所述文本检索信息为关键词,则所述生成至少包括所述关键内容的目标文本,包括:
[0011]生成包括所述关键内容的所述目标文本。
[0012]在一种可能的实现方式中,若所述文本检索信息为关键词,则所述确定采用所述文本检索信息检索得到的已知文本集合,包括:
[0013]从预先构建的图数据库中检索出包括所述关键词的已知文本集合。
[0014]在一种可能的实现方式中,若所述文本检索信息为句子语义信息,则所述生成至少包括所述关键内容的目标文本,包括:
[0015]通过所述文本生成模型生成与所述文本检索信息相关的基础内容;
[0016]生成包括所述基础内容和所述关键内容的所述目标文本。
[0017]在一种可能的实现方式中,若所述文本检索信息为句子语义信息,则所述确定采用所述文本检索信息检索得到的已知文本集合,包括:
[0018]从所述句子语义信息中确定出至少一个关键词;
[0019]从预先构建的图数据库中检索出包括所述至少一个关键词的待筛选文本集合,所述待筛选文本集合包括n个文本,n为正整数;
[0020]将所述待筛选文本集合中各个文本与所述句子语义信息进行语义相似度匹配,筛选出语义相似度最高的k个文本,k为小于或等于n的正整数;
[0021]将所述k个文本作为已知文本集合。
[0022]在一种可能的实现方式中,所述将所述待筛选文本集合中各个文本与所述句子语义信息进行语义相似度匹配,筛选出语义相似度最高的k个文本,包括:
[0023]根据自注意力模型,得到所述句子语义信息的嵌入向量以及所述待筛选文本集合中各个文本的嵌入向量;
[0024]将所述句子语义信息的嵌入向量与所述待筛选文本集合中各个文本的嵌入向量进行语义相似度匹配,得到所述待筛选文本集合中各个文本与所述句子语义信息的语义相似度;
[0025]根据所述语义相似度对各个文本进行排序,筛选出语义相似度最高的k个文本。
[0026]在一种可能的实现方式中,采用以下公式计算所述待筛选文本集合中各个文本与所述句子语义信息的语义相似度:
[0027][0028]其中,q表示所述句子语义信息的嵌入向量,Di表示所述待筛选文本集合中第i个文本的嵌入向量。
[0029]在一种可能的实现方式中,在所述确定采用所述文本检索信息检索得到的已知文本集合之前,所述方法还包括:
[0030]获得包括至少一个公开文本的公开文本集合;
[0031]根据各个所述公开文本,构建文本知识图谱,所述文本知识图谱包括格式为头实体

关系

尾实体的第一三元组和格式为实体

属性

属性值的第二类三元组;
[0032]将所述文本知识图谱输入待构建的图数据库中,获得预先构建的图数据库。
[0033]在一种可能的实现方式中,所述通过自动提取模型从各个所述已知文本中提取关键内容,包括:
[0034]根据所述自动提取模型中的BPE分词器对各个所述已知文本进行分词,转换成BPE词汇表中的id,并输入所述自动提取模型中的GPT模型;
[0035]通过所述GPT模型中的前向反馈生成各个所述已知文本的短文本内容,并将所述短文本内容作为相应所述已知文本的关键内容。
[0036]在一种可能的实现方式中,在所述通过自动提取模型从各个所述已知文本中提取关键内容之前,所述方法还包括:
[0037]从公开的文本库中获取预设领域的多个文本;
[0038]提取各个文本的主要内容并进行数据预处理,并将预处理后的数据作为训练集;
[0039]构建所述预设领域的BPE分词器和BPE词汇表;
[0040]根据所述BPE分词器对所述训练集中的各个数据进行分词,转换成所述BPE词汇表中的id,并输入到待训练的GPT模型中进行训练;
[0041]当达到预设迭代次数,获得训练完成的GPT模型;
[0042]获得包括所述BPE分词器、所述BPE词汇表和所述训练完成的GPT模型的所述自动提取模型。
[0043]在一种可能的实现方式中,所述通过所述文本生成模型生成与所述文本检索信息相关的基础内容,包括:
[0044]通过所述文本生成模型中的概述生成模型,生成所述目标文本的概述内容,将所
述概述内容作为与所述文本检索信息相关的基础内容。
[0045]在一种可能的实现方式中,在所述生成所述目标文本的概述内容之后,所述方法还包括:
[0046]通过所述文本生成模型中的标题生成模型,生成所述目标文本的标题内容,将所述标题内容和所述概述内容作为与所述文本检索信息相关的基础内容。
[0047]在一种可能的实现方式中,所述通过所述文本生成模型生成与所述文本检索信息相关的基础内容,包括:
[0048]通过所述文本生成模型中的背景生成模型,生成所述目标文本的背景内容,将所述背景内容作为所述文本检索信息相关的基础内容。
[0049]第二方面,本专利技术实施例还提供了一种文本生成装置,其中,包括:
[0050]存储器和处理器;
[0051]其中,所述存储器用于存储计算机程序;
[0052]所述处理器用于执行所述存储器中的计算机程序以实现包括如下步骤:
[0053]获得用户输入的文本检索信息;
[0054]确定采用所述文本检索信息检索得到的已知文本集合,所述已知文本集合包括至少一个已知文本;
[0055]通过自动提取模型从各个所述已知文本中提取关键内容;
[0056]生成至少包括所述关键内容的目标文本。
[0057]第三方面,本专利技术实施例还提供了一种计算机可读存储介质,其中,包括:
[0058]所述可读存储本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本生成方法,其特征在于,包括:获得用户输入的文本检索信息;确定采用所述文本检索信息检索得到的已知文本集合,所述已知文本集合包括至少一个已知文本;通过自动提取模型从各个所述已知文本中提取关键内容;生成至少包括所述关键内容的目标文本。2.如权利要求1所述的方法,其特征在于,若所述文本检索信息为关键词,则所述生成至少包括所述关键内容的目标文本,包括:生成包括所述关键内容的所述目标文本。3.如权利要求2所述的方法,其特征在于,若所述文本检索信息为关键词,则所述确定采用所述文本检索信息检索得到的已知文本集合,包括:从预先构建的图数据库中检索出包括所述关键词的已知文本集合。4.如权利要求1所述的方法,其特征在于,若所述文本检索信息为句子语义信息,则所述生成至少包括所述关键内容的目标文本,包括:通过所述文本生成模型生成与所述文本检索信息相关的基础内容;生成包括所述基础内容和所述关键内容的所述目标文本。5.如权利要求4所述的方法,其特征在于,若所述文本检索信息为句子语义信息,则所述确定采用所述文本检索信息检索得到的已知文本集合,包括:从所述句子语义信息中确定出至少一个关键词;从预先构建的图数据库中检索出包括所述至少一个关键词的待筛选文本集合,所述待筛选文本集合包括n个文本,n为正整数;将所述待筛选文本集合中各个文本与所述句子语义信息进行语义相似度匹配,筛选出语义相似度最高的k个文本,k为小于或等于n的正整数;将所述k个文本作为已知文本集合。6.如权利要求5所述的方法,其特征在于,所述将所述待筛选文本集合中各个文本与所述句子语义信息进行语义相似度匹配,筛选出语义相似度最高的k个文本,包括:根据自注意力模型,得到所述句子语义信息的嵌入向量以及所述待筛选文本集合中各个文本的嵌入向量;将所述句子语义信息的嵌入向量与所述待筛选文本集合中各个文本的嵌入向量进行语义相似度匹配,得到所述待筛选文本集合中各个文本与所述句子语义信息的语义相似度;根据所述语义相似度对各个文本进行排序,筛选出语义相似度最高的k个文本。7.如权利要求6所述的方法,其特征在于,采用以下公式计算所述待筛选文本集合中各个文本与所述句子语义信息的语义相似度:其中,q表示所述句子语义信息的嵌入向量,Di表示所述待筛选文本集合中第i个文本的嵌入向量。8.如权利要求1

7任一项所述的方法,其特征在于,在所述确定采用所述文本检索信息
检索得到的已知文本集合之前,所述方法还包括:获得包括至少一个公开文本的公开文本集合;根据各个所述公开文本,构建文本知识图谱,所述文本知识图谱包括格式为头实体

关系

尾实体的第一三元组和格式为实体

属性<...

【专利技术属性】
技术研发人员:欧歌姜博然冀潮钟楚千沈鸿翔
申请(专利权)人:京东方科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1