【技术实现步骤摘要】
对词语改写候选集进行更新的方法及装置
本说明书一个或多个实施例涉及计算机处理
,尤其涉及计算机执行的、对词语改写候选集进行更新的方法及装置。
技术介绍
文本处理技术一直是许多领域的研究热点,具体涉及文本分类、文本摘要计算、文本自动生成、文本修改或仿写等等。其中文本自动生成、文本修改或仿写等处理技术中,通常需要对目标词语进行替换或改写,显然,用于对目标词语进行改写的候选词语越丰富,改写得到的文本越丰富,得到优质文本的可能性越大。因此,需要一种可靠、高效地方案,能够确定出丰富的用于改写目标词语的候选词语。
技术实现思路
本说明书一个或多个实施例描述了一种对词语改写候选集进行更新的方法,可以对获取的原始候选集进行更新、拓展,从而使得其中的候选词语更加丰富。根据第一方面,提供一种对词语改写候选集进行更新的方法,该方法包括:获取多个原始候选集,其中任意的第一原始候选集中包括对应的第一目标词语,用于改写所述第一目标词语的若干候选词语,以及将所述第一目标词语改写为其中各个候选词语的改写概率;基于所述多个原始候选集,建立关系网络图;所述关系网络图中包括多个节点,表示所述多个原始候选集中包含的多个不同的词语,所述关系网络图中还包括节点之间的有向边和有向边的权重,分别表示对应词语之间的改写关系和改写概率;针对所述关系网络图中表示所述第一目标词语的第一目标节点,确定其K阶以内的多个出度邻居节点,所述K为预设的大于1的整数;针对所述多个出度邻居节点中任意的第一邻居节点,根据从所述第一目标节点到该第一 ...
【技术保护点】
1.一种对词语改写候选集进行更新的方法,包括:/n获取多个原始候选集,其中任意的第一原始候选集中包括对应的第一目标词语,用于改写所述第一目标词语的若干候选词语,以及将所述第一目标词语改写为其中各个候选词语的改写概率;/n基于所述多个原始候选集,建立关系网络图;所述关系网络图中包括多个节点,表示所述多个原始候选集中包含的多个不同的词语,所述关系网络图中还包括节点之间的有向边和有向边的权重,分别表示对应词语之间的改写关系和改写概率;/n针对所述关系网络图中表示所述第一目标词语的第一目标节点,确定其K阶以内的多个出度邻居节点,所述K为预设的大于1的整数;/n针对所述多个出度邻居节点中任意的第一邻居节点,根据从所述第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将所述第一目标词语改写为所述第一邻居节点所表示的词语的第一改写分数;/n基于确定出的对应于所述多个出度邻居节点的多个改写分数,以及所述多个出度邻居节点对应的多个词语,更新所述第一原始候选集中的候选词语和对应的改写概率。/n
【技术特征摘要】
1.一种对词语改写候选集进行更新的方法,包括:
获取多个原始候选集,其中任意的第一原始候选集中包括对应的第一目标词语,用于改写所述第一目标词语的若干候选词语,以及将所述第一目标词语改写为其中各个候选词语的改写概率;
基于所述多个原始候选集,建立关系网络图;所述关系网络图中包括多个节点,表示所述多个原始候选集中包含的多个不同的词语,所述关系网络图中还包括节点之间的有向边和有向边的权重,分别表示对应词语之间的改写关系和改写概率;
针对所述关系网络图中表示所述第一目标词语的第一目标节点,确定其K阶以内的多个出度邻居节点,所述K为预设的大于1的整数;
针对所述多个出度邻居节点中任意的第一邻居节点,根据从所述第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将所述第一目标词语改写为所述第一邻居节点所表示的词语的第一改写分数;
基于确定出的对应于所述多个出度邻居节点的多个改写分数,以及所述多个出度邻居节点对应的多个词语,更新所述第一原始候选集中的候选词语和对应的改写概率。
2.根据权利要求1所述的方法,其中,所述多个原始候选集基于预设类别的多个文本而预先确定,所述预设类别包括歌词或诗歌。
3.根据权利要求1所述的方法,其中,基于所述多个原始候选集,建立关系网络图,包括:
对所述若干候选词语对应的改写概率归一化,使得所述第一目标节点的出度有向边的权重之和为1。
4.根据权利要求1所述的方法,其中,根据从所述第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将所述第一目标词语改写为所述第一邻居节点所表示的词语的第一改写分数,包括:
确定从所述第一目标节点经过K条以内的有向边到达所述第一邻居节点的若干路径;
基于各条路径所包含有向边的权重确定对应的路径权重;
确定所述若干路径所对应的若干路径权重的和值,作为所述第一改写分数。
5.根据权利要求4所述的方法,其中,所述若干路径包括第一路径,所述第一路径包含多条有向边;基于各条路径所包含有向边的权重确定对应的路径权重,包括:
将所述多条有向边各自的权重连乘,作为第一路径的路径权重。
6.根据权利要求1所述的方法,其中,更新所述第一原始候选集中的候选词语和对应的改写概率,包括:
对所述多个改写分数进行归一化处理,得到多个第一概率;
确定所述多个第一概率中大于预设概率阈值的多个概率值,并对所述多个概率值进行归一化处理,得到多个第二概率;
将所述第一原始候选集中的所述若干候选词语更新为所述多个概率值对应的多个词语,将其对应的改写概率更新为所述多个第二概率。
7.根据权利要求1所述的方法,其中,更新所述第一原始候选集中的候选词语和对应的改写概率,包括:
对所述多个改写分数进行排序,并确定其中排在预定名次范围内的多个概率值;
对所述多个概率值进行归一化处理,得到多个归一化概率;
将所述第一原始候选集中的所述若干候选词语更新为所述多个概率值对应的多个词语,将其对应的改写概率更新为所述多个归一化概率。
8.根据权利要求1所述的方法,其中,更新所述第一原始候选集中的候选词语和对应的改写概率,包括:
确定所述多个改写分数中大于预设分数阈值的多个分值,并对所述多个分值进行归一化处理,得到多个归一化概率;
将所述第一原始候选集中的所述若干候选词语更新为所述多个分值对应的多个词语,将其对应的改写概率更新为所述多个归一化概率。
9.一种对词语改写候选集进行更新的装置,包括:
获取单元,配置为获取多个原始候选集,其中任意的第一...
【专利技术属性】
技术研发人员:曹绍升,杨轶斐,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。