基于人工智能的用于生成文本的方法和装置制造方法及图纸

技术编号：16919220 阅读：46 留言：0更新日期：2017-12-31 14:49

本申请实施例公开了基于人工智能的用于生成文本的方法和装置。该方法的一具体实施方式包括：获取待扩展文本；切分待扩展文本，得到待扩展文本的词序列；根据预先存储的词与标识信息的对应关系，确定与词序列对应的标识信息序列；将所确定的标识信息序列输入预先训练的文本扩展模型，生成扩展后的文本的标识信息序列；根据所生成的标识信息序列和词与标识信息的对应关系，生成扩展后的文本。该实施方式提高了文本生成的多样性。

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能的用于生成文本的方法和装置
本申请涉及计算机
，具体涉及互联网
，尤其涉及基于人工智能的用于生成文本的方法和装置。
技术介绍
人工智能(ArtificialIntelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。目前，对文本进行扩展时，主要基于预先建立的离线数据库实现，即将待扩展文本中的词替换为离线数据库中与其语义相近的词，以生成扩展后的文本。然而，目前采用的文本生成方法，由于离线数据库维护成本较高，且数据有限，所以文本生成结果较为局限。影响了了文本生成的多样性。
技术实现思路
本申请实施例的目的在于提出一种改进的基于人工智能的用于生成文本的方法和装置，来解决以上
技术介绍
部分提到的技术问题。第一方面，本申请提供了一种基于人工智能的用于生成文本的方法，该方法包括：获取待扩展文本；切分待扩展文本，得到待扩展文本的词序列；根据预先存储的词与标识信息的对应关系，确定与词序列对应的标识信息序列；将所确定的标识信息序列输入预先训练的文本扩展模型，生成扩展后的文本的标识信息序列，其中，文本扩展模型用于表征待扩展文本的标识信息序列与扩展后的文本的标识信息序列之间的对应关系；根据所生成的标识信息序列和词与标识信息的对应关系，生成扩展后的文本。在一些实施例中，文本扩展模型包括编码模型和解码模型，编码模...
基于人工智能的用于生成文本的方法和装置

【技术保护点】
一种基于人工智能的用于生成文本的方法，其特征在于，所述方法包括：获取待扩展文本；切分所述待扩展文本，得到所述待扩展文本的词序列；根据预先存储的词与标识信息的对应关系，确定与所述词序列对应的标识信息序列；将所确定的标识信息序列输入预先训练的文本扩展模型，生成扩展后的文本的标识信息序列，其中，所述文本扩展模型用于表征待扩展文本的标识信息序列与扩展后的文本的标识信息序列之间的对应关系；根据所生成的标识信息序列和所述词与标识信息的对应关系，生成扩展后的文本。

【技术特征摘要】
1.一种基于人工智能的用于生成文本的方法，其特征在于，所述方法包括：获取待扩展文本；切分所述待扩展文本，得到所述待扩展文本的词序列；根据预先存储的词与标识信息的对应关系，确定与所述词序列对应的标识信息序列；将所确定的标识信息序列输入预先训练的文本扩展模型，生成扩展后的文本的标识信息序列，其中，所述文本扩展模型用于表征待扩展文本的标识信息序列与扩展后的文本的标识信息序列之间的对应关系；根据所生成的标识信息序列和所述词与标识信息的对应关系，生成扩展后的文本。2.根据权利要求1所述的方法，其特征在于，所述文本扩展模型包括编码模型和解码模型，所述编码模型用于表征标识信息序列与编码信息序列之间的对应关系，所述解码模型用于表征预先设置的起始词的标识信息、编码信息序列二者与标识信息序列之间的对应关系；以及所述将所确定的标识信息序列输入预先训练的文本扩展模型，生成扩展后的文本的标识信息序列，包括：将所确定的标识信息序列输入所述编码模型，生成所述待扩展文本的编码信息序列；将所生成的编码信息序列和所述起始词的标识信息输入所述解码模型，生成扩展后的文本的标识信息序列。3.根据权利要求2所述的方法，其特征在于，所述将所确定的标识信息序列输入所述编码模型，生成所述待扩展文本的编码信息序列，包括：将所确定的标识信息序列中的各个标识信息正序输入用于编码的正向传播循环神经网络，生成第一参考编码信息序列；将所确定的标识信息序列中的各个标识信息倒序输入用于编码的反向传播循环神经网络，生成第二参考编码信息序列；根据所述第一参考编码信息序列和所述第二参考编码信息序列，生成所述待扩展文本序列的编码信息序列。4.根据权利要求2所述的方法，其特征在于，所述将所生成的编码信息序列和所述起始词的标识信息输入所述解码模型，生成扩展后的文本的标识信息序列，包括：基于用于解码的循环神经网络和所生成的编码信息序列，预测所述起始词的备选后续词序列的标识信息序列；根据所预测的每个标识信息序列包括的标识信息出现的概率，计算该标识信息序列出现的概率；从所预测的各个标识信息序列中按照出现的概率由大到小的顺序选择预定数目个标识信息序列，作为扩展后的文本的标识信息序列。5.根据权利要求4所述的方法，其特征在于，所述基于用于解码的循环神经网络和所生成的编码信息序列，预测所述起始词的备选后续词序列的标识信息序列，包括：根据注意力模型确定每次预测时所生成的编码信息序列的权重；根据所述权重对所生成的编码信息序列进行加权；基于用于解码的循环神经网络和加权后的编码信息序列，预测所述起始词的备选后续词序列的标识信息序列。6.根据权利要求1所述的方法，其特征在于，所述文本扩展模型是经由以下步骤训练的：将搜索引擎的点击日志中，与同一个点击链接对应的查询语句两两组成样本组；切分各个样本组包括的查询语句，得到切分出的各个词；从所述切分出的各个词中按照出现次数由大到小的顺序选择预设数目个词；为所选择的各个词分配标识信息，并存储词与标识信息的对应关系；根据所述词与标识信息的对应关系，确定与每个样本组包括的查询语句对应的标识信息序列；将与每个样本组包括的两个查询语句对应的标识信息序列，分别作为输入与输出，训练得到所述文本扩展模型。7.根据权利要求1-6中任一项所述的方法，其特征在于，所述待扩展文本是根据终端输入的查询信息生成的；以及所述根据所生成的标识信息序列和所述词与标识信息的对应关系，生成扩展后的文本之后，所述方法还包括：基于所生成的文本进行搜索操作，得到搜索结果信息；向所述终端推送所述搜索结果信息。8.一种基于人工智能的用于生成文本的装置，其特征在于，所述装...

【专利技术属性】
技术研发人员：刘毅，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人