一种电影故事生成方法技术

技术编号:24331243 阅读:22 留言:0更新日期:2020-05-29 19:40
本公开提供了一种电影故事生成方法。所述方法包括:从历史文本的各个语句中抽取事实三元组;确定历史文本的属性信息;其中,属性信息包括历史文本的主题;根据事实三元组以及历史文本的属性信息,建立知识图谱;根据指定属性信息与预设路径规划算法,从知识图谱中选取多个节点;按照节点被选取的顺序,将节点依次输入循环神经网络模型,生成目标文本。本公开根据事实三元组和历史文本的属性信息建立知识图谱,使得基于知识图谱生成的目标文本的故事更加贴合指定场景。

【技术实现步骤摘要】
一种电影故事生成方法
本公开涉及计算机软件领域,特别涉及一种电影故事生成方法。
技术介绍
随着科技的发展,我们希望计算机可以像人类一样写作,能够撰写出高质量的自然语言文本。因此,在新闻撰写、文书生成、天气预报信息等领域,利用半结构化、结构化文本数据生成自然语言文本,得到了越来越广泛的应用。目前,现有技术通常使用神经网络来实现字符级的短文本生成、词级的文本生成。但是,现有技术仍然存在一些缺陷,例如,利用现有技术无法得到特定情景下的文本,因此,如何使生成的文本贴合指定主题或场景,成为一个亟待解决的技术问题。
技术实现思路
本公开实施例的目的是提供一种电影故事生成方法,以使生成的文本贴合指定主题或场景。为达到上述目的,本公开实施例提供一种电影故事生成方法,所述方法包括:从历史文本的各个语句中抽取事实三元组;确定所述历史文本的属性信息;其中,所述属性信息包括所述历史文本的主题;根据所述事实三元组以及所述历史文本的属性信息,建立知识图谱;根据指定属性信息与预设路径规划算法,从所述知识图谱中选取多个节点;按照所述节点被选取的顺序,将所述节点依次输入循环神经网络模型,生成目标文本。本公开实施例还提供一种电影故事生成装置,所述装置包括:事实三元组抽取模块,用于从历史文本的各个语句中抽取事实三元组;文本属性信息确定模块,用于确定所述历史文本的属性信息;其中,所述属性信息包括所述历史文本的主题;知识图谱建立模块,用于根据所述事实三元组以及所述历史文本的属性信息,建立知识图谱;节点选取模块,用于根据指定属性信息与预设路径规划算法,从所述知识图谱中选取多个节点;目标文本生成模块,用于按照所述节点被选取的顺序,将所述节点依次输入循环神经网络模型,生成目标文本。本公开实施例还提供一种计算机设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述任意实施例中所述电影故事生成方法的步骤。本公开实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述任意实施例中所述电影故事生成方法的步骤。由以上本公开实施例提供的技术方案可见,本公开通过在事实三元组的基础上,加入文本属性信息的约束,例如主题约束,生成知识图谱,进一步的,通过预设的路径规划算法链接知识图谱中的多个节点构成故事的情节主线,使得故事更加丰富,生成的文本更加贴合指定主题。附图说明图1是本公开实施例提供的一种电影故事生成方法流程图;图2是本公开实施例提供的句法依赖树示意图;图3是本公开实施例提供的LSTM模型示意图;图4是本公开实施例提供LSTM模型内部结构示意图;图5是本公开实施例提供的一种电影故事生成装置的模块结构图;图6是本公开实施例提供的计算机设备的示意图;图7是本公开实施例提供的计算机可读存储介质的示意图。具体实施方式本公开实施例提供一种电影故事生成方法。为了使本
的人员更好地理解本公开中的技术方案,下面将结合本公开实施方式中的附图,对本公开实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本公开一部分实施方式,而不是全部的实施方式。基于本公开中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都应当属于本公开保护的范围。参考图1所示,为本公开实施例提供的一种电影故事生成方法的流程图,可以包括如下步骤:S1:从历史文本的各个语句中抽取事实三元组。在本实施方式中,先从语料库中获取多个历史文本,再对每个历史文本进行句子级的信息抽取,以得到各个句子的事实三元组,即各个句子的主谓宾,可以表示为(s,p,o)。对于主谓宾不全的语句,可以跳过,不抽取该句子的事实三元组。参考图2所示,通常可以采用句法依赖树进行抽取。例如,一个句子为:Mydoglikeseatingsausage.通过句法依赖树抽取,得到该句子的nmod(复合名词修饰),xcomp(x从句补语),nsubj(名词性主语),dobj(直接宾语),root(根节点),从而确定出该句子的主谓宾结构,抽取出事实三元组。S2:确定所述历史文本的属性信息;其中,所述属性信息包括所述历史文本的主题。在本实施方式中,可以通过TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文本频率指数)算法;或LDA(LatentDirichletAllocation,潜在狄利克雷分配)模型确定所述历史文本的主题。例如,通过TF-IDF算法确定历史文本的主题包括如下步骤:S21:计算词频S22:计算逆文本频率指数S23:计算TFw-IDFTFw-IDF=词频(TFw)×逆文本频率(IDF)将TF-IDF值最大的词作为该历史文本的主题。S3:根据所述事实三元组以及所述历史文本的属性信息,建立知识图谱。在本实施方式中,通过将历史文本的属性信息添加至事实三元组中,得到扩充后的事实三元组,并基于扩充后的事实三元组,建立知识图谱。例如,某个历史文本中的一个句子为:LESTER:Ibookamovieticketfortheafternoon.则抽取出的事实三元组为(LESTER,book,movieticket)。进一步的,该历史文本的场景是Earthcinema,类型是comdy,则扩充后的事实三元组为(LESTER,book,movieticket,Earthcinema,comdy)。当然,上述举例仅仅为了更好地说明扩充后的事实三元组,还可以适用于中文的历史文本,对此本申请不做限定。S4:根据指定属性信息与预设路径规划算法,从所述知识图谱中选取多个节点。在本实施方式中,在知识图谱中随机选取符合指定属性信息的相关节点,选择完成后,在知识图谱中以路径规划的方式连接起选定的节点。预设路径规划算法可以包括A*(A-star)算法。例如A*算法,通过式子f(i)=g(i)+h(i),每次从优先队列中选取f(i)值最小(优先级最高)的节点node作为下一个要遍历的节点。其中,f(i)是节点node的综合优先级,当选择下一个要遍历的节点时,总会选取综合优先级最高(值最小)的节点;g(i)是节点node距离起点的代价;h(i)是节点node距离终点的预计代价。A*算法分别使用两个集合来表示待遍历的节点open_set,与已经遍历过的节点close_set。在利用A-star算法从所述知识图谱中选取多个节点时,所述知识图谱中的节点间的距离定义为:distance=disManhattan+simSemantics其中,distance为节点间的距离;disManhattan为曼哈顿本文档来自技高网
...

【技术保护点】
1.一种电影故事生成方法,其特征在于,包括:/n从历史文本的各个语句中抽取事实三元组;/n确定所述历史文本的属性信息,其中,所述属性信息包括所述历史文本的主题;/n根据所述事实三元组以及所述历史文本的属性信息,建立知识图谱;/n根据指定属性信息与预设路径规划算法,从所述知识图谱中依次选取多个节点;/n按照节点被选取的顺序,将所述节点依次输入循环神经网络模型,输出目标文本。/n

【技术特征摘要】
1.一种电影故事生成方法,其特征在于,包括:
从历史文本的各个语句中抽取事实三元组;
确定所述历史文本的属性信息,其中,所述属性信息包括所述历史文本的主题;
根据所述事实三元组以及所述历史文本的属性信息,建立知识图谱;
根据指定属性信息与预设路径规划算法,从所述知识图谱中依次选取多个节点;
按照节点被选取的顺序,将所述节点依次输入循环神经网络模型,输出目标文本。


2.根据权利要求1所述的方法,其特征在于,利用句法依赖树抽取所述各个语句的事实三元组。


3.根据权利要求1所述的方法,其特征在于,通过词频-逆文本频率指数算法;或潜在狄利克雷分配模型确定所述历史文本的主题。


4.根据权利要求1所述的方法,其特征在于,所述预设路径规划算法包括:A-star算法。


5.根据权利要求4所述的方法,其特征在于,在利用A-star算法从所述知识图谱中选取多个节点时,所述知识图谱中的节点间的距离定义为:
distance=disManhattan+simSemantics
其中,distance为节点间的距离;disManhattan为曼哈顿距离;simSemantics为所述知识图...

【专利技术属性】
技术研发人员:刘宏伟刘宏蕊
申请(专利权)人:天津外国语大学广东工业大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1