当前位置: 首页 > 专利查询>扬州大学专利>正文

一种基于复杂词变化解码的中文词语简化方法及系统技术方案

技术编号:37966051 阅读:13 留言:0更新日期:2023-06-30 09:41
本发明专利技术公开了一种基于复杂词变化解码的中文词语简化方法,包括:基于中文汉语考试词汇等级表,识别词语难度等级,将高难度词语作为目标复杂词;构建中文复述语料,训练中文复述模型;利用所述中文复述模型并基于复杂词变化解码方法,生成存在候选简化词的复述句子;从生成的复述句子中,获取候选简化替代词;利用开源工具和词频对所述候选简化替代词进行排序,获取最终简化词。本发明专利技术构造了一个大规模的中文复述语料;利用复述模型进行中文词汇简化任务,并提出了一种基于复杂词变化的解码方法,提高简化准确率;在候选词排序中加入BARTscore,考虑替代词对句子原意的改变。考虑替代词对句子原意的改变。考虑替代词对句子原意的改变。

【技术实现步骤摘要】
一种基于复杂词变化解码的中文词语简化方法及系统


[0001]本专利技术涉及词汇简化解码
,尤其涉及一种基于复杂词变化解码的中文词语简化方法。

技术介绍

[0002]词语简化首先要识别复杂词,然后给出合适的简化替代词,同时保证替换后句意不变。词汇简化能帮助阅读障碍者,二语学习者等;同时对例如文本简化等任务均有重要意义。目前词汇简化研究主要集中在英文,而其他语言由于缺乏语料而缺乏相应的关注。
[0003]当前最新的一些研究应用BERT等预训练模型来替换复杂词。BERT使用Transformer结构,预训练任务包含掩码语言模型MLM和下一句句子关系预测NSP;训练掩码语言模型MLM时,会随机遮盖部分词让模型去预测被遮盖的部分;下一句句子预测任务NSP则是为了让BERT学习到句子之间的关系;因此,当被掩码的部分是复杂词时候,基于掩码语言模型预训练任务,BERT会给出被掩码部分的候选替代词即生成复杂词的候选替代词。由于中文预训练语言模型应用单个汉字进行分词,BERT在预测复杂词需要设置多个遮盖标记来生成包含多个汉字的替代词。有研究应用自回归的方法依次预测遮盖标记但显示BERT性能与同义词查找方法仍有较大差距,当预测多个汉字的替换词时,准确度较低;同时BERT更多的考虑替换词与上下文进行关联,没有考虑到句意的变化,生成的简化词可能会使原句意发生改变。

技术实现思路

[0004]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0005]鉴于上述现有存在的问题,提出了本专利技术。
[0006]因此,本专利技术提供了一种基于复杂词变化解码的中文词语简化方法解决现有技术中当预测多个汉字的替换词时,准确度较低;无法考虑到句意的变化,生成的简化词可能会使原句意发生改变的问题。
[0007]为解决上述技术问题,本专利技术提供如下技术方案:包括:
[0008]第一方面,本专利技术提供了一种基于复杂词变化解码的中文词语简化方法,包括:
[0009]基于中文汉语考试词汇等级表,识别词语难度等级,将高难度词语作为目标复杂词;
[0010]构建中文复述语料,训练中文复述模型;
[0011]利用所述中文复述模型并基于复杂词变化解码方法,生成存在候选简化词的复述句子,其中,所述复杂词变化解码方法基于复杂词长度,应用集束解码,直至达到相应解码长度;
[0012]从生成的复述句子中,获取候选简化替代词;
[0013]利用开源工具和词频对所述候选简化替代词进行排序,获取最终简化词,其中,所述排序包括利用开源工具计算复述句对原句的语义改变程度。
[0014]作为本专利技术所述的基于复杂词变化解码的中文词语简化方法的一种优选方案,其中:所述构建中文复述语料利用开源机器翻译模型获取翻译句,组合翻译句和原目标句,构建中文复述语料;
[0015]所述训练中文复述模型包括,通过BART模型在中文复述语料上进行训练调整,生成多个候选语句。
[0016]作为本专利技术所述的基于复杂词变化解码的中文词语简化方法的一种优选方案,其中:所述生成存在候选简化词的复述句子,包括,
[0017]定义K为复述句子数量,定义输入的句子为X={x1,

,x
k
,

,x
n
},其中复杂词为x
i
(1≤i≤n),目标词长度为j∈{1,2,3,4},n为输入句子的词语数目;
[0018]利用中文复述模型将复杂词的前缀X
<i
={x1,

,x
i
‑2,x
i
‑1}进行预处理,对应生成预备句,定义为pre_toks,长度定义为len_pre;
[0019]定义解码空间为Y
s
={y
s1
,

,y
sk
,

,y
sk
},其中s为当前解码步长,1≤s≤len_pre;
[0020]将句子输入中文复述模型编码后,进行解码,指定前len_pre步,解码内容为前缀pre_toks;当前解码空间为Y
s=pre_len
={y
s1
,

,y
sk
,

,y
sK
},其中y
sK
=pre_toks;
[0021]基于前缀空间Y
s=len_pre
,解码获取当前词汇概率分布为p(y|Y
len_pre
,X),
[0022]p(y|Y
len_pre
,X)=softmax(g(x
i
‑1,t
i
,s
i
))
[0023]其中softmax,g为激活函数,t
i
为i时刻解码步状态信息,s
i
为原句子的表示信息;
[0024]基于当前概率分布,可以获取K个概率最大的候选标记B={y1,

,y
k

,y
K
},将候选标记合并于当前解码空间;当前解码空间为Y
s=pre_len+1
={y
s1
,

,y
sk
,

,y
sK
},其中
[0025]作为本专利技术所述的基于复杂词变化解码的中文词语简化方法的一种优选方案,其中:所述复杂词变化解码方法基于复杂词长度,应用集束解码,直至达到相应解码长度,其中,所述复杂词长度定义为j∈{1,2,3,4};
[0026]包括,定义当前解码长度s=pre_len+1,定义复述集合R={},定义复述集合长度为len_R;
[0027]若s≥len_pre+j+1,令R=R∪Y
s
对复述集合R去标记化并保留概率最大的K个复述句,返回复述集合R={r1,

,r
k

,r
K
};
[0028]将s更新为s+1;
[0029]通过中文复述模型进行解码,获取当前句子的概率分布为:
[0030][0031]从当前概率分布中获取K个概率最大的候选句子Y
s
={y
s1
,

,y
sk
,

,y
sK
};
[0032]遍历Y
s
,若y
sk
最后一个标记为EOS,添加y
sk
于复述集合R中;...

【技术保护点】

【技术特征摘要】
1.一种基于复杂词变化解码的中文词语简化方法,其特征在于,包括:基于中文汉语考试词汇等级表,识别词语难度等级,将高难度词语作为目标复杂词;构建中文复述语料,训练中文复述模型;利用所述中文复述模型并基于复杂词变化解码方法,生成存在候选简化词的复述句子,其中,所述复杂词变化解码方法基于复杂词长度,应用集束解码,直至达到相应解码长度;从生成的复述句子中,获取候选简化替代词;利用开源工具和词频对所述候选简化替代词进行排序,获取最终简化词,其中,所述排序包括利用开源工具计算复述句对原句的语义改变程度。2.如权利要求1所述的基于复杂词变化解码的中文词语简化方法,其特征在于,所述构建中文复述语料利用开源机器翻译模型获取翻译句,组合翻译句和原目标句,构建中文复述语料;所述训练中文复述模型包括,通过BART模型在中文复述语料上进行训练调整,生成多个候选语句。3.如权利要求1或2所述的基于复杂词变化解码的中文词语简化方法,其特征在于,所述生成存在候选简化词的复述句子,包括,定义K为复述句子数量,定义输入的句子为X={x1,...,x
k
,...,x
n
},其中复杂词为x
i
(1≤i≤n),目标词长度为j∈{1,2,3,4},n为输入句子的词语数目;利用中文复述模型将复杂词的前缀X
<i
={x1,...,x
i
‑2,x
i
‑1}进行预处理,对应生成预备句,定义为pre_toks,长度定义为len_pre;定义解码空间为Y
s
={y
s1
,...,y
sk
,...,y
sK
},其中s为当前解码步长,1≤s≤len_pre;将句子输入中文复述模型编码后,进行解码,指定前len_pre步,解码内容为前缀pre_toks;当前解码空间为Y
s=pre_len
={y
s1
,...,y
sk
,...,y
sK
},其中y
sk
=pre_toks;基于前缀空间Y
s=len_pre
,解码获取当前词汇概率分布为p(y|Y
len_pre
,X),p(y|Y
len_pre
,X)=softmax(g(x
i
‑1,t
i
,s
i
))其中softmax,g为激活函数,t
i
为i时刻解码步状态信息,s
i
为原句子的表示信息;基于当前概率分布,可以获取K个概率最大的候选标记B={y1,...,y
K
...,y
K
},将候选标记合并于当前解码空间;当前解码空间为Y
s=pre_len+1
={y
s1
,...,y
sk
,...,y
sK
},其中4.如权利要求3所述的基于复杂词变化解码的中文词语简化方法,其特征在于,所述复杂词变化解码方法基于复杂词长度,应用集束解码,直至达到相应解码长度,其中,所述复杂词长度定义为j∈{1,2,3,4};包括,定义当前解码长度s=pre_len+1,定义复述集合R={},定义复述集合长度为len
_
R;若s≥len_pre+j+1,令R=R∪Y
s
对复述集合R去标记化并保留概率最大的K个复述句,返回复述集合R={r1,...,r
k

,r
K
};将s更新为s+1;通过中文复述模型进行解码,获取当前句子的概率分布为:
从当前概率分布中获取K个概率最大的候选句子Y

【专利技术属性】
技术研发人员:强继朋刘康李滢李云
申请(专利权)人:扬州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1