当前位置: 首页 > 专利查询>扬州大学专利>正文

一种无监督的英文句子自动简化算法制造技术

技术编号:21799366 阅读:25 留言:0更新日期:2019-08-07 10:34
本发明专利技术公开了互联网领域内的一种无监督的英文句子自动简化算法,按如下步骤进行:步骤1、训练词的向量表示;步骤2、获取词的频率;步骤3、分别获取简化句子集合和复杂句子集合;步骤4、填充短语表;步骤5、分别训练简化句子语言模型和复杂句子语言模型;步骤6、构建基于短语的句子简化模型;步骤7、迭代执行回译的策略,训练更优的句子简化模型,本发明专利技术在没有利用任何标注的并行语料,充分利用英文维基百科语料,有效提高了英文句子简化的准确性。

An unsupervised algorithm for automatic sentence simplification in English

【技术实现步骤摘要】
一种无监督的英文句子自动简化算法
本专利技术涉及一种互联网文本算法,特别涉及一种无监督的英文句子自动简化算法。
技术介绍
近年来,互联网上的文本资料向更广泛的用户提供了很多有用的知识和信息。然后,对于许多人来说,网上文本的撰写方式,如词汇和句法结果,可能难以阅读和理解,特别是对那些识字率低、认知或语言障碍、或者文本语言知识有限的人。包含非常用词或长而复杂句子的文本不仅很难被人们阅读和理解,也同样很难被机器进行分析。自动文本简化是在保留原有文本信息的情况下,尽可能简化原有文本的内容,从而达到更容易被更广泛的观众阅读和理解。现有的文本简化算法利用机器翻译的算法,从一种语言下的复杂句子和简化句子的并行语料对中学习简化句子。这种文本简化算法是一种有监督的学习任务,它的有效性严重依赖大量的并行简化语料。可是,现在已有的英文并行简化语料主要是从普通英语的维基百科和儿童版的英语维基百科中获取,通过匹配算法分别两个不同维基百科中选择句子作为并行句子对。目前能够获取的并行简化语料,不仅数量少,而且包含很多非简化的句子对和错误的句子对,主要因为儿童版的维基百科由非专业人士编写,并不是和普通的维基百科一一对应,导致很难选择合适的句子匹配算法。因为简化并行语料的问题,导致已有文本简化算法效果并不是很理想。
技术实现思路
本专利技术的目的是提供一种无监督的英文句子自动简化算法,在无需要任何并行简化语料,只利用公开下载的维基百科语料,实现对英文句子的自动简化,从而能让用户更容易阅读和理解英文句子,特别是认知或者语言障碍的人。本专利技术的目的是这样实现的:一种无监督的英文句子自动简化算法,按如下步骤进行:步骤1、把公开的英文维基百科语料库D作为训练语料,采用词嵌入算法Word2vec获取词语t的向量表示vt;通过Word2vec算法获取的词向量表示能够很好的抓住词语的语义特征;采用Skip-Gram模型学习词嵌入算法Word2vec;给定语料库D和词语t,考虑一个以t为中心的滑动窗口,用Wt表示出现在t上下文窗口中的词语集合;观察上下文词语集合的对数概率定义如下:式(1)中,v'w是词语w的上下文向量表示,V是D的词汇表;然后,Skig-Gram的整体目标函数被定义如下:式(2)中,词的向量表示可以通过最大化该目标函数进行学习;步骤2、利用维基百科语料D,统计每个词语t的频率f(t),f(t)表示词语t在D中的出现次数;步骤3、利用维基百科语料D,获取简化句子集合S和复杂句子集合C;步骤4、利用词的向量表示和词的频率,填充表示词翻译为另一个词语概率的短语表PT(PhraseTable);在PT中,词语ti到词语tj的翻译概率p(tj|ti)的计算公式如下:式(4)中,cos表示余弦相似度计算公式;步骤5、针对简化句子集合S和复杂句子集合C,分别采用语言模型KenLM算法进行训练,获取简化语言模型LMS和复杂语言模型LMC;LMS和LMC在后面的迭代学习过程中保持不变;步骤6、利用短语表PT、简化语言模型LMS和复杂语言模型LMC,采用基于短语的机器翻译算法PBMT(Phrased-basedMachineTranslation),构建复杂句子到简化句子的简化算法给定复杂句子c,算法利用式(5),分别计算不同词的组合组成的句子s的得分,最后选择得分做高的句子s’将作为简化句子:s'=argmaxsp(c|s)p(s)(5)式(5)中,PBMT算法分解p(c|s)作为短语表PT的内积,p(s)是句子s的概率,是从语言模型LMS获得;步骤7、利用初始的PBMT算法迭代执行回译(Back-translation)的策略,生成更优的文本简化算法。作为本专利技术的进一步限定,步骤3具体包括:步骤3.1、针对维基百科语料D中的每个句子s,采用FleschReadingEase(FRE)算法进行打分,如式(3),并按分值从高到低进行排序;式(3)中,FRE(s)表示句子s的FRE得分,tw(s)表示句子s中所有词的数目,ts(s)表示句子s中所有音节的数目;步骤3.2、去除得分超过100的句子集合,去除得到低于20分的句子集合,去除中间得分的句子集合;最后,选择高得分的句子集合作为简化句子集合S和低得分的句子集合作为复杂句子集合C。作为本专利技术的进一步限定,所述步骤7具体包括:步骤7.1、首先利用算法,翻译复杂句子集合C,得到新的合成的简化句子集合S0,然后,循环执行步骤7.2到7.5,迭代次数i从1到N;步骤7.2、利用合成的并行语料(Si-1,C)、简化语言模型LMS和复杂语言模型LMC,训练新的从简化句子到复杂句子的PBMT算法步骤7.3、利用翻译简化句子集合S,得到新的合成的复杂句子集合Ci;步骤7.4、利用合成的并行语料(Ci,S)、简化语言模型LMC和复杂语言模型LMS,训练新的从复杂句子到简化句子的PBMT算法步骤7.5、利用翻译复杂句子集合C,得到新的合成的简化句子集合Si;重新回到步骤7.2重复执行,直到迭代N次。与现有技术相比,本专利技术的有益效果在于:1、本专利技术在填充短语表的过程中,结合了从维基百科语料中获取的词向量表示和词频率,能够抓住词语的语义信息和词语的使用频率,克服了传统的基于短语的机器翻译PBMT算法需要利用并行语料填充短语表;2、本专利技术将维基百科语料库作为知识库,利用FleschReadingEase(FRE)算法对句子进行打分,从而获取简化句子集合和复杂句子集合,从而能够更为准确的训练复杂句子语言模型和简化句子语言模型;3、本专利技术利用获得的短语表、复杂句子语言模型和简化句子语言模型,基于PBMT算法构建了初始的无监督的文本简化算法;该文本简化算法不仅是无监督的算法,更是简单、容易解释和能够快速的进行训练;4、本专利技术在构建初始的简化算法之后,利用简化算法生成并行语料,从而采用回译的策略对已有的文本简化模型进行优化,修正了初始的短语表中可能错误的条目,进一步提升算法型性能。具体实施方式下面结合具体实施例对本专利技术做进一步说明。一种无监督的英文句子自动简化算法,按如下步骤进行:步骤1、把公开的英文维基百科语料库D作为训练语料,可以从“https://dumps.wikimedia.org/enwiki/”下载,采用词嵌入算法Word2vec获取词语t的向量表示vt;通过Word2vec算法获取的词向量表示能够很好的抓住词语的语义特征;获取词的向量表示后,可以获取词语的相似度,帮助寻找每个词的高相似的词语集合;本实例中,每个向量的维数设置为300,采用Skip-Gram模型学习词嵌入算法Word2vec;给定语料库D和词语t,考虑一个以t为中心的滑动窗口,用Wt表示出现在t上下文窗口中的词语集合;滑动窗口设置为t前面5个词和后面5个词;观察上下文词语集合的对数概率定义如下:式(1)中,v'w是词语w的上下文向量表示,V是D的词汇表;然后,Skig-Gram的整体目标函数被定义如下:式(2)中,词的向量表示可以通过采用随机的梯度下降算法和负抽样,最大化该目标函数进行学习。步骤2、利用维基百科语料D,统计每个词语t的频率f(t),f(t)表示词语t在D中的出现次数;在文本简化领域中,词的复杂度测量通过会考虑词语的频率;一般说来,词的频率本文档来自技高网...

【技术保护点】
1.一种无监督的英文句子自动简化算法,其特征在于,按如下步骤进行:步骤1、把公开的英文维基百科语料库D作为训练语料,采用词嵌入算法Word2vec获取词语t的向量表示vt;通过Word2vec算法获取的词向量表示能够很好的抓住词语的语义特征;采用Skip‑Gram模型学习词嵌入算法Word2vec;给定语料库D和词语t,考虑一个以t为中心的滑动窗口,用Wt表示出现在t上下文窗口中的词语集合;观察上下文词语集合的对数概率定义如下:

【技术特征摘要】
1.一种无监督的英文句子自动简化算法,其特征在于,按如下步骤进行:步骤1、把公开的英文维基百科语料库D作为训练语料,采用词嵌入算法Word2vec获取词语t的向量表示vt;通过Word2vec算法获取的词向量表示能够很好的抓住词语的语义特征;采用Skip-Gram模型学习词嵌入算法Word2vec;给定语料库D和词语t,考虑一个以t为中心的滑动窗口,用Wt表示出现在t上下文窗口中的词语集合;观察上下文词语集合的对数概率定义如下:式(1)中,v'w是词语w的上下文向量表示,V是D的词汇表;然后,Skig-Gram的整体目标函数被定义如下:式(2)中,词的向量表示可以通过最大化该目标函数进行学习;步骤2、利用维基百科语料D,统计每个词语t的频率f(t),f(t)表示词语t在D中的出现次数;步骤3、利用维基百科语料D,获取简化句子集合S和复杂句子集合C;步骤4、利用词的向量表示和词的频率,填充表示词翻译为另一个词语概率的短语表PT(PhraseTable);在PT中,词语ti到词语tj的翻译概率p(tj|ti)的计算公式如下:式(4)中,cos表示余弦相似度计算公式;步骤5、针对简化句子集合S和复杂句子集合C,分别采用语言模型KenLM算法进行训练,获取简化语言模型LMS和复杂语言模型LMC;LMS和LMC在后面的迭代学习过程中保持不变;步骤6、利用短语表PT、简化语言模型LMS和复杂语言模型LMC,采用基于短语的机器翻译算法PBMT(Phrased-basedMachineTranslation),构建复杂句子到简化句子的简化算法给定复杂句子c,算法利用式(5),分别计算不同词的组合组成的句子s的得分,最后选择得分做高的句子s’将作为简化...

【专利技术属性】
技术研发人员:强继朋李云袁运浩
申请(专利权)人:扬州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1