基于人工智能的用于生成文本的方法和装置制造方法及图纸

技术编号:16919220 阅读:31 留言:0更新日期:2017-12-31 14:49
本申请实施例公开了基于人工智能的用于生成文本的方法和装置。该方法的一具体实施方式包括:获取待扩展文本;切分待扩展文本,得到待扩展文本的词序列;根据预先存储的词与标识信息的对应关系,确定与词序列对应的标识信息序列;将所确定的标识信息序列输入预先训练的文本扩展模型,生成扩展后的文本的标识信息序列;根据所生成的标识信息序列和词与标识信息的对应关系,生成扩展后的文本。该实施方式提高了文本生成的多样性。

【技术实现步骤摘要】
基于人工智能的用于生成文本的方法和装置
本申请涉及计算机
,具体涉及互联网
,尤其涉及基于人工智能的用于生成文本的方法和装置。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。目前,对文本进行扩展时,主要基于预先建立的离线数据库实现,即将待扩展文本中的词替换为离线数据库中与其语义相近的词,以生成扩展后的文本。然而,目前采用的文本生成方法,由于离线数据库维护成本较高,且数据有限,所以文本生成结果较为局限。影响了了文本生成的多样性。
技术实现思路
本申请实施例的目的在于提出一种改进的基于人工智能的用于生成文本的方法和装置,来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请提供了一种基于人工智能的用于生成文本的方法,该方法包括:获取待扩展文本;切分待扩展文本,得到待扩展文本的词序列;根据预先存储的词与标识信息的对应关系,确定与词序列对应的标识信息序列;将所确定的标识信息序列输入预先训练的文本扩展模型,生成扩展后的文本的标识信息序列,其中,文本扩展模型用于表征待扩展文本的标识信息序列与扩展后的文本的标识信息序列之间的对应关系;根据所生成的标识信息序列和词与标识信息的对应关系,生成扩展后的文本。在一些实施例中,文本扩展模型包括编码模型和解码模型,编码模型用于表征标识信息序列与编码信息序列之间的对应关系,解码模型用于表征预先设置的起始词的标识信息、编码信息序列二者与标识信息序列之间的对应关系;以及将所确定的标识信息序列输入预先训练的文本扩展模型,生成扩展后的文本的标识信息序列,包括:将所确定的标识信息序列输入编码模型,生成待扩展文本的编码信息序列;将所生成的编码信息序列和起始词的标识信息输入解码模型,生成扩展后的文本的标识信息序列。在一些实施例中,将所确定的标识信息序列输入编码模型,生成待扩展文本的编码信息序列,包括:将所确定的标识信息序列中的各个标识信息正序输入用于编码的正向传播循环神经网络,生成第一参考编码信息序列;将所确定的标识信息序列中的各个标识信息倒序输入用于编码的反向传播循环神经网络,生成第二参考编码信息序列;根据第一参考编码信息序列和第二参考编码信息序列,生成待扩展文本序列的编码信息序列。在一些实施例中,将所生成的编码信息序列和起始词的标识信息输入解码模型,生成扩展后的文本的标识信息序列,包括:基于用于解码的循环神经网络和所生成的编码信息序列,预测起始词的备选后续词序列的标识信息序列;根据所预测的每个标识信息序列包括的标识信息出现的概率,计算该标识信息序列出现的概率;从所预测的各个标识信息序列中按照出现的概率由大到小的顺序选择预定数目个标识信息序列,作为扩展后的文本的标识信息序列。在一些实施例中,基于用于解码的循环神经网络和所生成的编码信息序列,预测起始词的备选后续词序列的标识信息序列,包括:根据注意力模型确定每次预测时所生成的编码信息序列的权重;根据权重对所生成的编码信息序列进行加权;基于用于解码的循环神经网络和加权后的编码信息序列,预测起始词的备选后续词序列的标识信息序列。在一些实施例中,文本扩展模型是经由以下步骤训练的:将搜索引擎的点击日志中,与同一个点击链接对应的查询语句两两组成样本组;切分各个样本组包括的查询语句,得到切分出的各个词;从切分出的各个词中按照出现次数由大到小的顺序选择预设数目个词;为所选择的各个词分配标识信息,并存储词与标识信息的对应关系;根据词与标识信息的对应关系,确定与每个样本组包括的查询语句对应的标识信息序列;将与每个样本组包括的两个查询语句对应的标识信息序列,分别作为输入与输出,训练得到文本扩展模型。在一些实施例中,待扩展文本是根据终端输入的查询信息生成的;以及根据所生成的标识信息序列和词与标识信息的对应关系,生成扩展后的文本之后,方法还包括:基于所生成的文本进行搜索操作,得到搜索结果信息;向终端推送搜索结果信息。第二方面,本申请提供了一种基于人工智能的用于生成文本的装置,该装置包括:获取单元,用于获取待扩展文本;切分单元,用于切分待扩展文本,得到待扩展文本的词序列;确定单元,用于根据预先存储的词与标识信息的对应关系,确定与词序列对应的标识信息序列;第一生成单元,用于将所确定的标识信息序列输入预先训练的文本扩展模型,生成扩展后的文本的标识信息序列,其中,文本扩展模型用于表征待扩展文本的标识信息序列与扩展后的文本的标识信息序列之间的对应关系;第二生成单元,用于根据所生成的标识信息序列和词与标识信息的对应关系,生成扩展后的文本。在一些实施例中,文本扩展模型包括编码模型和解码模型,编码模型用于表征标识信息序列与编码信息序列之间的对应关系,解码模型用于表征预先设置的起始词的标识信息、编码信息序列二者与标识信息序列之间的对应关系;以及第一生成单元,包括:编码子单元,用于将所确定的标识信息序列输入编码模型,生成待扩展文本的编码信息序列;解码子单元,用于将所生成的编码信息序列和起始词的标识信息输入解码模型,生成扩展后的文本的标识信息序列。在一些实施例中,编码子单元,进一步配置用于:将所确定的标识信息序列中的各个标识信息正序输入用于编码的正向传播循环神经网络,生成第一参考编码信息序列;将所确定的标识信息序列中的各个标识信息倒序输入用于编码的反向传播循环神经网络,生成第二参考编码信息序列;根据第一参考编码信息序列和第二参考编码信息序列,生成待扩展文本序列的编码信息序列。在一些实施例中,解码子单元进一步配置用于:基于用于解码的循环神经网络和所生成的编码信息序列,预测起始词的备选后续词序列的标识信息序列;根据所预测的每个标识信息序列包括的标识信息出现的概率,计算该标识信息序列出现的概率;从所预测的各个标识信息序列中按照出现的概率由大到小的顺序选择预定数目个标识信息序列,作为扩展后的文本的标识信息序列。在一些实施例中,解码子单元进一步配置用于:根据注意力模型确定每次预测时所生成的编码信息序列的权重;根据权重对所生成的编码信息序列进行加权;基于用于解码的循环神经网络和加权后的编码信息序列,预测起始词的备选后续词序列的标识信息序列。在一些实施例中,装置还包括训练单元,训练单元用于:将搜索引擎的点击日志中,与同一个点击链接对应的查询语句两两组成样本组;切分各个样本组包括的查询语句,得到切分出的各个词;从切分出的各个词中按照出现次数由大到小的顺序选择预设数目个词;为所选择的各个词分配标识信息,并存储词与标识信息的对应关系;根据词与标识信息的对应关系,确定与每个样本组包括的查询语句对应的标识信息序列;将与每个样本组包括的两个查询语句对应的标识信息序列,分别作为输入与输出,训练得到文本扩展模型。在一些实施例中,待扩展文本是根据终端输入的查询信息生成的;以及装置还包括推送单元,推送单元用于:基于所生成的文本进行搜索操作,得到搜索结果信息;向终端推送搜索结果信息。第三方面,本申请本文档来自技高网...
基于人工智能的用于生成文本的方法和装置

【技术保护点】
一种基于人工智能的用于生成文本的方法,其特征在于,所述方法包括:获取待扩展文本;切分所述待扩展文本,得到所述待扩展文本的词序列;根据预先存储的词与标识信息的对应关系,确定与所述词序列对应的标识信息序列;将所确定的标识信息序列输入预先训练的文本扩展模型,生成扩展后的文本的标识信息序列,其中,所述文本扩展模型用于表征待扩展文本的标识信息序列与扩展后的文本的标识信息序列之间的对应关系;根据所生成的标识信息序列和所述词与标识信息的对应关系,生成扩展后的文本。

【技术特征摘要】
1.一种基于人工智能的用于生成文本的方法,其特征在于,所述方法包括:获取待扩展文本;切分所述待扩展文本,得到所述待扩展文本的词序列;根据预先存储的词与标识信息的对应关系,确定与所述词序列对应的标识信息序列;将所确定的标识信息序列输入预先训练的文本扩展模型,生成扩展后的文本的标识信息序列,其中,所述文本扩展模型用于表征待扩展文本的标识信息序列与扩展后的文本的标识信息序列之间的对应关系;根据所生成的标识信息序列和所述词与标识信息的对应关系,生成扩展后的文本。2.根据权利要求1所述的方法,其特征在于,所述文本扩展模型包括编码模型和解码模型,所述编码模型用于表征标识信息序列与编码信息序列之间的对应关系,所述解码模型用于表征预先设置的起始词的标识信息、编码信息序列二者与标识信息序列之间的对应关系;以及所述将所确定的标识信息序列输入预先训练的文本扩展模型,生成扩展后的文本的标识信息序列,包括:将所确定的标识信息序列输入所述编码模型,生成所述待扩展文本的编码信息序列;将所生成的编码信息序列和所述起始词的标识信息输入所述解码模型,生成扩展后的文本的标识信息序列。3.根据权利要求2所述的方法,其特征在于,所述将所确定的标识信息序列输入所述编码模型,生成所述待扩展文本的编码信息序列,包括:将所确定的标识信息序列中的各个标识信息正序输入用于编码的正向传播循环神经网络,生成第一参考编码信息序列;将所确定的标识信息序列中的各个标识信息倒序输入用于编码的反向传播循环神经网络,生成第二参考编码信息序列;根据所述第一参考编码信息序列和所述第二参考编码信息序列,生成所述待扩展文本序列的编码信息序列。4.根据权利要求2所述的方法,其特征在于,所述将所生成的编码信息序列和所述起始词的标识信息输入所述解码模型,生成扩展后的文本的标识信息序列,包括:基于用于解码的循环神经网络和所生成的编码信息序列,预测所述起始词的备选后续词序列的标识信息序列;根据所预测的每个标识信息序列包括的标识信息出现的概率,计算该标识信息序列出现的概率;从所预测的各个标识信息序列中按照出现的概率由大到小的顺序选择预定数目个标识信息序列,作为扩展后的文本的标识信息序列。5.根据权利要求4所述的方法,其特征在于,所述基于用于解码的循环神经网络和所生成的编码信息序列,预测所述起始词的备选后续词序列的标识信息序列,包括:根据注意力模型确定每次预测时所生成的编码信息序列的权重;根据所述权重对所生成的编码信息序列进行加权;基于用于解码的循环神经网络和加权后的编码信息序列,预测所述起始词的备选后续词序列的标识信息序列。6.根据权利要求1所述的方法,其特征在于,所述文本扩展模型是经由以下步骤训练的:将搜索引擎的点击日志中,与同一个点击链接对应的查询语句两两组成样本组;切分各个样本组包括的查询语句,得到切分出的各个词;从所述切分出的各个词中按照出现次数由大到小的顺序选择预设数目个词;为所选择的各个词分配标识信息,并存储词与标识信息的对应关系;根据所述词与标识信息的对应关系,确定与每个样本组包括的查询语句对应的标识信息序列;将与每个样本组包括的两个查询语句对应的标识信息序列,分别作为输入与输出,训练得到所述文本扩展模型。7.根据权利要求1-6中任一项所述的方法,其特征在于,所述待扩展文本是根据终端输入的查询信息生成的;以及所述根据所生成的标识信息序列和所述词与标识信息的对应关系,生成扩展后的文本之后,所述方法还包括:基于所生成的文本进行搜索操作,得到搜索结果信息;向所述终端推送所述搜索结果信息。8.一种基于人工智能的用于生成文本的装置,其特征在于,所述装...

【专利技术属性】
技术研发人员:刘毅
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1