对词语改写候选集进行更新的方法及装置制造方法及图纸

技术编号:24576360 阅读:50 留言:0更新日期:2020-06-21 00:26
本说明书实施例提供一种对词语改写候选集进行更新的方法,该方法包括:首先,获取多个原始候选集,其中任意的第一原始候选集中包括对应的第一目标词语,用于改写第一目标词语的若干候选词语和对应的若干改写概率;接着,基于多个原始候选集,建立关系网络图;然后,针对关系网络图中表示第一目标词语的第一目标节点,确定其K阶以内的多个出度邻居节点;再接着,针对多个出度邻居节点中任意的第一邻居节点,根据从第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将第一目标词语改写为第一邻居节点所表示词语的第一改写分数;再然后,基于对应于多个出度邻居节点的多个改写分数和多个词语,更新第一原始候选集。

Method and device for updating candidate set of word rewriting

【技术实现步骤摘要】
对词语改写候选集进行更新的方法及装置
本说明书一个或多个实施例涉及计算机处理
,尤其涉及计算机执行的、对词语改写候选集进行更新的方法及装置。
技术介绍
文本处理技术一直是许多领域的研究热点,具体涉及文本分类、文本摘要计算、文本自动生成、文本修改或仿写等等。其中文本自动生成、文本修改或仿写等处理技术中,通常需要对目标词语进行替换或改写,显然,用于对目标词语进行改写的候选词语越丰富,改写得到的文本越丰富,得到优质文本的可能性越大。因此,需要一种可靠、高效地方案,能够确定出丰富的用于改写目标词语的候选词语。
技术实现思路
本说明书一个或多个实施例描述了一种对词语改写候选集进行更新的方法,可以对获取的原始候选集进行更新、拓展,从而使得其中的候选词语更加丰富。根据第一方面,提供一种对词语改写候选集进行更新的方法,该方法包括:获取多个原始候选集,其中任意的第一原始候选集中包括对应的第一目标词语,用于改写所述第一目标词语的若干候选词语,以及将所述第一目标词语改写为其中各个候选词语的改写概率;基于所述多个原始候选集,建立关系网络图;所述关系网络图中包括多个节点,表示所述多个原始候选集中包含的多个不同的词语,所述关系网络图中还包括节点之间的有向边和有向边的权重,分别表示对应词语之间的改写关系和改写概率;针对所述关系网络图中表示所述第一目标词语的第一目标节点,确定其K阶以内的多个出度邻居节点,所述K为预设的大于1的整数;针对所述多个出度邻居节点中任意的第一邻居节点,根据从所述第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将所述第一目标词语改写为所述第一邻居节点所表示的词语的第一改写分数;基于确定出的对应于所述多个出度邻居节点的多个改写分数,以及所述多个出度邻居节点对应的多个词语,更新所述第一原始候选集中的候选词语和对应的改写概率。在一个实施例中,所述多个原始候选集基于预设类别的多个文本而预先确定,所述预设类别包括歌词或诗歌。在一个实施例中,基于所述多个原始候选集,建立关系网络图,包括:对所述若干候选词语对应的改写概率归一化,使得所述第一目标节点的出度有向边的权重之和为1。在一个实施例中,根据从所述第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将所述第一目标词语改写为所述第一邻居节点所表示的词语的第一改写分数,包括:确定从所述第一目标节点经过K条以内的有向边到达所述第一邻居节点的若干路径;基于各条路径所包含有向边的权重确定对应的路径权重;确定所述若干路径所对应的若干路径权重的和值,作为所述第一改写分数。在一个具体的实施例中,所述若干路径包括第一路径,所述第一路径包含多条有向边;基于各条路径所包含有向边的权重确定对应的路径权重,包括:将所述多条有向边各自的权重连乘,作为第一路径的路径权重。在一个实施例中,更新所述第一原始候选集中的候选词语和对应的改写概率,包括:对所述多个改写分数进行归一化处理,得到多个第一概率;确定所述多个第一概率中大于预设概率阈值的多个概率值,并对所述多个概率值进行归一化处理,得到多个第二概率;将所述第一原始候选集中的所述若干候选词语更新为所述多个概率值对应的多个词语,将其对应的改写概率更新为所述多个第二概率。在一个实施例中,更新所述第一原始候选集中的候选词语和对应的改写概率,包括:对所述多个改写分数进行排序,并确定其中排在预定名次范围内的多个概率值;对所述多个概率值进行归一化处理,得到多个归一化概率;将所述第一原始候选集中的所述若干候选词语更新为所述多个概率值对应的多个词语,将其对应的改写概率更新为所述多个归一化概率。在一个实施例中,更新所述第一原始候选集中的候选词语和对应的改写概率,包括:确定所述多个改写分数中大于预设分数阈值的多个分值,并对所述多个分值进行归一化处理,得到多个归一化概率;将所述第一原始候选集中的所述若干候选词语更新为所述多个分值对应的多个词语,将其对应的改写概率更新为所述多个归一化概率。根据第二方面,提供一种对词语改写候选集进行更新的装置,包括:获取单元,配置为获取多个原始候选集,其中任意的第一原始候选集中包括对应的第一目标词语,用于改写所述第一目标词语的若干候选词语,以及将所述第一目标词语改写为其中各个候选词语的改写概率;所述多个原始候选集基于预设类别的多个文本而预先确定;建立单元,配置为基于所述多个原始候选集,建立关系网络图;所述关系网络图中包括多个节点,表示所述多个原始候选集中包含的多个不同的词语,所述关系网络图中还包括节点之间的有向边和有向边的权重,分别表示对应词语之间的改写关系和改写概率;第一确定单元,配置为针对所述关系网络图中表示所述第一目标词语的第一目标节点,确定其K阶以内的多个出度邻居节点,所述K为预设的大于1的整数;第二确定单元,配置为针对所述多个出度邻居节点中任意的第一邻居节点,根据从所述第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将所述第一目标词语改写为所述第一邻居节点所表示的词语的第一改写分数;更新单元,配置为基于确定出的对应于所述多个出度邻居节点的多个改写分数,以及所述多个出度邻居节点对应的多个词语,更新所述第一原始候选集中的候选词语和对应的改写概率。根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。根据第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。综上,采用本说明书实施例披露的对词语改写候选集进行更新的方法及装置,可以实现对原始候选集的更新、拓展,使得其中的候选词语更加丰富,改写概率的可信度、精准度和可用性更高,从而辅助文本自动生成、文本自动填充、文本改写、文本修正等文本处理技术的提升,提高相关服务平台的可靠性和用户的使用体验。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1示出根据一个实施例的对词语改写候选集进行更新的方法流程图;图2示出根据一个实施例的基于多个原始候选集建立的关系网络图;图3示出根据一个实施例的对词语改写候选集进行更新的装置结构图。具体实施方式下面结合附图,对本说明书提供的方案进行描述。如前所述,需要一种可靠、高效地方案,能够确定出丰富的用于改写目标词语的候选词语。下面结合一个具体的场景进行说明,如用户在进行词曲创作时,已写出的歌词文本包括“在完全失去之前,才能够回到XX”,此时,用户可以利用音乐服务平台提供的自动填充功能,选定补入XX位置的词语,具体地,音乐服务平台可以将“之前”确定为目标词语,再向用户提供对应的候选词语,如从前、原点等,以供用户选择,从而辅助用户更好、更本文档来自技高网...

【技术保护点】
1.一种对词语改写候选集进行更新的方法,包括:/n获取多个原始候选集,其中任意的第一原始候选集中包括对应的第一目标词语,用于改写所述第一目标词语的若干候选词语,以及将所述第一目标词语改写为其中各个候选词语的改写概率;/n基于所述多个原始候选集,建立关系网络图;所述关系网络图中包括多个节点,表示所述多个原始候选集中包含的多个不同的词语,所述关系网络图中还包括节点之间的有向边和有向边的权重,分别表示对应词语之间的改写关系和改写概率;/n针对所述关系网络图中表示所述第一目标词语的第一目标节点,确定其K阶以内的多个出度邻居节点,所述K为预设的大于1的整数;/n针对所述多个出度邻居节点中任意的第一邻居节点,根据从所述第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将所述第一目标词语改写为所述第一邻居节点所表示的词语的第一改写分数;/n基于确定出的对应于所述多个出度邻居节点的多个改写分数,以及所述多个出度邻居节点对应的多个词语,更新所述第一原始候选集中的候选词语和对应的改写概率。/n

【技术特征摘要】
1.一种对词语改写候选集进行更新的方法,包括:
获取多个原始候选集,其中任意的第一原始候选集中包括对应的第一目标词语,用于改写所述第一目标词语的若干候选词语,以及将所述第一目标词语改写为其中各个候选词语的改写概率;
基于所述多个原始候选集,建立关系网络图;所述关系网络图中包括多个节点,表示所述多个原始候选集中包含的多个不同的词语,所述关系网络图中还包括节点之间的有向边和有向边的权重,分别表示对应词语之间的改写关系和改写概率;
针对所述关系网络图中表示所述第一目标词语的第一目标节点,确定其K阶以内的多个出度邻居节点,所述K为预设的大于1的整数;
针对所述多个出度邻居节点中任意的第一邻居节点,根据从所述第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将所述第一目标词语改写为所述第一邻居节点所表示的词语的第一改写分数;
基于确定出的对应于所述多个出度邻居节点的多个改写分数,以及所述多个出度邻居节点对应的多个词语,更新所述第一原始候选集中的候选词语和对应的改写概率。


2.根据权利要求1所述的方法,其中,所述多个原始候选集基于预设类别的多个文本而预先确定,所述预设类别包括歌词或诗歌。


3.根据权利要求1所述的方法,其中,基于所述多个原始候选集,建立关系网络图,包括:
对所述若干候选词语对应的改写概率归一化,使得所述第一目标节点的出度有向边的权重之和为1。


4.根据权利要求1所述的方法,其中,根据从所述第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将所述第一目标词语改写为所述第一邻居节点所表示的词语的第一改写分数,包括:
确定从所述第一目标节点经过K条以内的有向边到达所述第一邻居节点的若干路径;
基于各条路径所包含有向边的权重确定对应的路径权重;
确定所述若干路径所对应的若干路径权重的和值,作为所述第一改写分数。


5.根据权利要求4所述的方法,其中,所述若干路径包括第一路径,所述第一路径包含多条有向边;基于各条路径所包含有向边的权重确定对应的路径权重,包括:
将所述多条有向边各自的权重连乘,作为第一路径的路径权重。


6.根据权利要求1所述的方法,其中,更新所述第一原始候选集中的候选词语和对应的改写概率,包括:
对所述多个改写分数进行归一化处理,得到多个第一概率;
确定所述多个第一概率中大于预设概率阈值的多个概率值,并对所述多个概率值进行归一化处理,得到多个第二概率;
将所述第一原始候选集中的所述若干候选词语更新为所述多个概率值对应的多个词语,将其对应的改写概率更新为所述多个第二概率。


7.根据权利要求1所述的方法,其中,更新所述第一原始候选集中的候选词语和对应的改写概率,包括:
对所述多个改写分数进行排序,并确定其中排在预定名次范围内的多个概率值;
对所述多个概率值进行归一化处理,得到多个归一化概率;
将所述第一原始候选集中的所述若干候选词语更新为所述多个概率值对应的多个词语,将其对应的改写概率更新为所述多个归一化概率。


8.根据权利要求1所述的方法,其中,更新所述第一原始候选集中的候选词语和对应的改写概率,包括:
确定所述多个改写分数中大于预设分数阈值的多个分值,并对所述多个分值进行归一化处理,得到多个归一化概率;
将所述第一原始候选集中的所述若干候选词语更新为所述多个分值对应的多个词语,将其对应的改写概率更新为所述多个归一化概率。


9.一种对词语改写候选集进行更新的装置,包括:
获取单元,配置为获取多个原始候选集,其中任意的第一...

【专利技术属性】
技术研发人员:曹绍升杨轶斐
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1