本申请涉及一种自然语句生成的方法、装置、计算机设备和存储介质。所述方法包括:获取语料模板,并确定所述语料模板中的槽位,所述槽位包括槽位属性;向所述语料模板中的槽位填充符合所述槽位属性的词语,以获得第一自然语句;对所述第一自然语句进行续写处理,以获第二自然语句。采用本方法可以通过自动生成自然语言的方式,可以免除为了获得符合需求的语料而花费较高的获取成本的问题,也减少了人工标注语料再进行筛选时所耗费的人力和时间成本。
Method, device, computer equipment and storage medium of natural statement generation
【技术实现步骤摘要】
自然语句生成的方法、装置、计算机设备和存储介质
本申请涉及自然语言处理
,特别是涉及一种自然语句生成的方法、装置、计算机设备和存储介质。
技术介绍
随着人们对计算机科学、人工智能、语言学、以及计算机和人类(自然)语言之间的相互作用这一领域的关注,自然语言处理的技术有了长足的发展,出现了通过对自然语言进行分析,确定该自然语言的含义的技术,这个技术需要大量的语料,和合理的训练模型。现有的语料是通过人工标注费时费力,市场上也有众多公司或个人提供语料标注的服务。获取特定任务的自然语言语料或者需要人工处理大量的数据,或者需要从类似公司或个人购买,都有较高的获取成本。现有的提供语料的方式,存在效率低下或安全性低或浪费资源等问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够按照需求大量生成语料的一种自然语句生成的方法、装置、计算机设备和存储介质。一种自然语句生成的方法,所述方法包括:获取语料模板,并确定所述语料模板中的槽位,所述槽位包括槽位属性;向所述语料模板中的槽位填充符合所述槽位属性的词语,以获得第一自然语句;对所述第一自然语句进行续写处理,以获第二自然语句。在其中一个实施例中,所述确定语料模板中的槽位,包括:对所述语料模板进行正则表达识别槽位,并得到每个槽位的槽位属性。在其中一个实施例中,所述向所述语料模板中的槽位填充符合所述槽位属性的词语,以获得第一自然语句,包括:获取每个所述槽位属性所关联的词语库;从所述词语库中选择词语填充至所述语料模板相应槽位属性对应的所述槽位中,得到第一自然语言。在其中一个实施例中,所述对所述第一自然语句进行续写处理,以获第二自然语句,包括:将第一自然语句输入训练好的语句续写模型,以获得第二自然语句。在其中一个实施例中,所述将第一自然语句输入训练好的语句续写模型,以获得第二自然语句之前,还包括:搭建一神经网络模型,所述神经网络模型的损失函数通过交叉熵确定;构建训练文本,所述训练文本包括输入数据与输出数据,所述输出数据为所述输入数据的顺移一位的映像,所述训练文本为字符串;使用所述训练文本对所述神经网络模型进行训练,得到语句续写模型。在其中一个实施例中,所述将第一自然语句输入训练好的语句续写模型,以获得第二自然语句,包括:确定所述第二自然语句的最大字数;将所述第一自然语句输入训练好的语句续写模型,输出接于所述第一自然语句的续写语句;所述第一自然语句以及续写语句构成第二自然语句,当所述第二自然语句的文字数量达到所述最大字数时,输出所述第二自然语句。在其中一个实施例中,还包括:对所述第一自然语句和/或第二自然语句进行分词处理,并在分词间隙插入语气词。一种自然语句生成的装置,所述装置包括:槽位确定模块,用于获取语料模板,并确定所述语料模板中的槽位,所述槽位包括槽位属性;第一自然语句获得模块,用于向所述语料模板中的槽位填充符合所述槽位属性的词语,以获得第一自然语句;第二自然语句获得模块,用于对所述第一自然语句进行续写处理,以获第二自然语句。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取语料模板,并确定所述语料模板中的槽位,所述槽位包括槽位属性;向所述语料模板中的槽位填充符合所述槽位属性的词语,以获得第一自然语句;对所述第一自然语句进行续写处理,以获第二自然语句。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取语料模板,并确定所述语料模板中的槽位,所述槽位包括槽位属性;向所述语料模板中的槽位填充符合所述槽位属性的词语,以获得第一自然语句;对所述第一自然语句进行续写处理,以获第二自然语句。上述一种自然语句生成的方法、装置、计算机设备和存储介质,通过确定语料模板中的槽位来确定使用者所需要的自然语言(语料)的构成结构,确定构成结构后,向语料模板中的槽位填充符合槽位属性的词语,以获得第一自然语句,此时已经可以获得使用者所需要的基本的自然语言(语料),为了更加丰富自然语言的内容,丰富作为训练素材的自然的可能性,对第一自然语句进行续写处理,以获第二自然语句。通过自动生成自然语言的方式,可以免除为了获得符合需求的语料而花费较高的获取成本的问题,也减少了人工标注语料再进行筛选所耗费的人力和时间成本。附图说明图1为一个实施例中一种自然语句生成的方法的应用环境图;图2为一个实施例中一种自然语句生成的方法的流程示意图;图3为一个实施例中一种确定语料模板中的槽位的方法的流程示意图;图4为一个实施例中一种获得第一自然语句的方法的流程示意图;图5为一个实施例中一种获第二自然语句的方法的流程示意图;图6为一个实施例中一种标准神经网络结构;图7为一个实施例中一种循环神经网络结构;图8为一种循环神经网络结构按照时间展开的展开形式;图9为一种搭构建语句续写模型的具体方法的流程示意图;图10为一个实施例中一种自然语句生成的装置的结构框图;图11为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的一种自然语句生成的方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。如使用者在终端102中输入语料模板,终端102通过网络与服务器104通过网络进行通信,由服务器104确定该语料模板中的槽位,以及该槽位的槽位属性。应当知道的,服务器本身可以包括多个词语库,以向该槽位提供词语,也可以通过网络关联词库以向该槽位提供词语。服务器104确定语料模板中的槽位后,向槽位填充符合槽位属性的词语,将填充完词语的语料模板作为第一自然语句。确定完第一自然语句后,服务器104对第一自然语句进行续写,将续写后的句子作为第二自然语句。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一个实施例中,如图2所示,提供了一种自然语句生成的方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:步骤201,获取语料模板,并确定语料模板中的槽位,所述槽位包括槽位属性。其中,语料模板可以理解为使用者定义的所需要的自然语言的抽象结构。语料模板是预先设置的,如可以将“你”“我”“他”……“小明”等放入{人}这一类别下,作为{人}的语料模板。同样的可以将“今天”“昨天”“明天”……“周三”等放入{时间}这一类别下,作为{时间}的语料本文档来自技高网...
【技术保护点】
1.一种自然语句生成的方法,其特征在于,所述方法包括:/n获取语料模板,并确定所述语料模板中的槽位,所述槽位包括槽位属性;/n向所述语料模板中的槽位填充符合所述槽位属性的词语,以获得第一自然语句;/n对所述第一自然语句进行续写处理,以获第二自然语句。/n
【技术特征摘要】
1.一种自然语句生成的方法,其特征在于,所述方法包括:
获取语料模板,并确定所述语料模板中的槽位,所述槽位包括槽位属性;
向所述语料模板中的槽位填充符合所述槽位属性的词语,以获得第一自然语句;
对所述第一自然语句进行续写处理,以获第二自然语句。
2.根据权利要求1所述的方法,其特征在于,所述确定语料模板中的槽位,包括:
对所述语料模板进行正则表达识别槽位,并得到每个槽位的槽位属性。
3.根据权利要求2所述的方法,其特征在于,所述向所述语料模板中的槽位填充符合所述槽位属性的词语,以获得第一自然语句,包括:
获取每个所述槽位属性所关联的词语库;
从所述词语库中选择词语填充至所述语料模板相应槽位属性对应的所述槽位中,得到第一自然语言。
4.根据权利要求1所述的方法,其特征在于,所述对所述第一自然语句进行续写处理,以获第二自然语句,包括:
将第一自然语句输入训练好的语句续写模型,以获得第二自然语句。
5.根据权利要求4所述的方法,其特征在于,所述将第一自然语句输入训练好的语句续写模型,以获得第二自然语句之前,还包括:
搭建一神经网络模型,所述神经网络模型的损失函数通过交叉熵确定;
构建训练文本,所述训练文本包括输入数据与输出数据,所述输出数据为所述输入数据的顺移一位的映像,所述训练文本为字符串;
使用所述训练文本...
【专利技术属性】
技术研发人员:吴庭,
申请(专利权)人:浙江大搜车软件技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。