当前位置: 首页 > 专利查询>扬州大学专利>正文

以读者为中心的个性化英文文本简化方法技术

技术编号:31024045 阅读:36 留言:0更新日期:2021-11-30 03:21
本发明专利技术公开了一种以读者为中心的个性化英文文本简化方法,包括步骤1、根据读者当前具备的的英文等级,设置当前简化方法的简化等级,并获取该等级对应的词库;步骤2、对读者阅读的文本,进行分句处理,得到分句集合;步骤3、采用句子词语简化方法从前到后依次对分句集合中的每个句子进行简化,获取简化后的句子集合,并将简化后的句子集合给返回读者。本发明专利技术充分利用预训练语言模型以及词典库,满足不同读者对英文文本简化的要求,同时提高了英文文本简化的准确性。本简化的准确性。

【技术实现步骤摘要】
以读者为中心的个性化英文文本简化方法


[0001]本专利技术涉及英文文本简化领域,特别涉及一种以读者为中心的个性化英文文本简化方法。

技术介绍

[0002]近年来,随着互联网的发展,大量英文文本出现在大众视野当中。比如很多在英文期刊上下载的专业论文,很多人选择直接阅读这些专业论文,而不是先把论文翻译成自己的母语,然后进行阅读。对于这些文本,如果文本中包含大量非常用、生僻的词汇,将严重制约读者对文本内容意思的理解。研究证明,如果文本中有90%的英文词汇在读者的认知范围内,即便文本长而复杂,文本的内容意思也可以很容易地被读者理解。
[0003]英文文本简化旨在通过简化文本中的词汇或者句法,使得读者能够读懂文本的意思,同时最大限度的保留原文本信息。对于给定的一段输入文本,文本简化系统使用简单的词汇替换文本中复杂的单词需要满足两个条件:1)输出文本应尽可能保留输入的含义;2)输出文本应尽量减少复杂单词(读者无法理解的单词)的数量。这两个条件会产生冲突,为了降低文本的复杂性,系统会选择最简单的候选替代词。然而选择最简单的候选替代词时,文本的原始语义又无法得到保证。现有的文本简化算法没有考虑读者的认知水平,盲目地设定一些词频相对较低的词汇作为复杂词汇,使用词义接近的词汇替代复杂词汇,从而达到文本简化效果,加大简化后的文本意思与原文本意思差异的风险。

技术实现思路

[0004]本专利技术的目的是克服现有技术缺陷,提供一种以读者为中心的个性化英文文本简化方法,根据读者认知范围,检索文本中需要简化的内容,通过在线同义词词典库以及无监督文本简化方法获取的同义词,对原文本中词汇进行替换,使得读者更易理解文本的内容意思,同时最大限度保留原文本信息。
[0005]本专利技术的目的是这样实现的:一种以读者为中心的个性化英文文本简化方法,包括以下步骤:
[0006]步骤1、根据读者当前具备的的英文等级,设置当前简化方法的简化等级,并获取该等级对应的词库R;
[0007]步骤2、假设读者当前阅读的文档Text,采用句子分割方法,对Text进行分句,得到句子集合T={c1,

,c
i
,

,c
m
};m表示集合T中的句子数目;
[0008]步骤3、采用句子词语简化方法从前到后依次对T中的每个句子c
i
(1≤i≤m)进行简化,获取简化后的句子集合SS={s1,

,s
i
,

,s
m
},并返回SS给读者。
[0009]作为本专利技术的进一步限定,所述步骤2具体包括以下步骤:
[0010]步骤2.1:定义集合T,初始值为空;
[0011]步骤2.2:删除文档Text中特殊符号、多余字符;
[0012]步骤2.3:按照

.

对文档Text进行分割,得到初始的句子集合T_init;
[0013]步骤2.4:依次遍历集合T_init中的句子sent
a
,a的初值为1。
[0014]作为本专利技术的进一步限定,所述步骤2.4具体包括以下步骤:
[0015]步骤2.4.1:对于sent
a
,判断sent
a
是否含有







符号,若存在,则执行以下步骤;否则把sent
a
加入到集合T中,执行步骤2.4.4;
[0016]步骤2.4.2:若sent
a
包含



符号,则按照



对sent
a
进行分割;获得子句集合t
a

[0017]步骤2.4.3:若sent
a
包含



符号,则按照



对sent
a
进行分割;依次把获得的子句加入到集合T中;
[0018]步骤2.4.4:令a=a+1,重复执行步骤2.4,直到集合T_init中所有的句子遍历完毕。
[0019]作为本专利技术的进一步限定,所述步骤2.4.2具体包括以下步骤:
[0020]步骤2.4.2.1:遍历集合t
a
,判断集合中的每个句子是否含有



符号,若有,则按照



对该句进行分割,将获得的子句依次加入到集合T中;否则直接将该句加入集合T中。
[0021]作为本专利技术的进一步限定,所述步骤3具体包括以下步骤:
[0022]步骤3.1:采用分词工具对句子c
i
进行分词,获取对应的词语集合及对应的词性标签c
i
={{w1,p1},

,{w
j
,p
j
},

,{w
n
,p
n
}};w
j
(1≤j≤n)表示句子中第j个词语,p
j
是w
j
对应的词性标签,n表示句子c
i
的词语数目;
[0023]步骤3.2:初始化j=1,将原始句子c
i
赋值给简化句子s
i

[0024]步骤3.3:如果j等于n+1,返回简化句子s
i
,并终止迭代;否则,继续执行步骤3.4;
[0025]步骤3.4:判断w
j
是否属于停用词,若不属于,则执行步骤3.5;否则,将j+1赋值给j,并执行步骤3.3;
[0026]步骤3.5:判断p
j
是否属于该词性集合={名词(n)、动词(v),形容词(adj),副词(adv)},若属于,则执行步骤3.6;否则,将j+1赋值给j,并执行步骤3.3;
[0027]步骤3.6:利用词干提取工具提取w
j
的词干stem
j
,判断stem
j
是否属于读者对应的词库R中,若不属于,则执行步骤3.7;否则,将j+1赋值给j,并执行步骤3.3;
[0028]步骤3.7:利用公开在线同义词词典库,获取词w
j
的同义词集合Syn;
[0029]步骤3.8:采用基于预训练语言表示模型Bert的词语简化方法,获取句子c
i
中词w
j
的候选替代词CS={cs1,

,cs
k
,

,cs
p
};cs
k
(1≤k≤p)表示CS中第k个词语,p为用户指定的候选替代词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种以读者为中心的个性化英文文本简化方法,其特征在于,包括以下步骤:步骤1、根据读者当前具备的的英文等级,设置当前简化方法的简化等级,并获取该等级对应的词库R;步骤2、假设读者当前阅读的文档Text,采用句子分割方法,对Text进行分句,得到句子集合T={c1,

,c
i
,

,c
m
};m表示集合T中的句子数目;步骤3、采用句子词语简化方法从前到后依次对T中的每个句子c
i
(1≤i≤m)进行简化,获取简化后的句子集合SS={s1,

,s
i
,

,s
m
},并返回SS给读者。2.根据权利要求1所述的以读者为中心的个性化英文文本简化方法,其特征在于,所述步骤2具体包括以下步骤:步骤2.1:定义集合T,初始值为空;步骤2.2:删除文档Text中特殊符号、多余字符;步骤2.3:按照

.

对文档Text进行分割,得到初始的句子集合T_init;步骤2.4:依次遍历集合T_init中的句子sent
a
,a的初值为1。3.根据权利要求2所述的以读者为中心的个性化英文文本简化方法,其特征在于,所述步骤2.4具体包括以下步骤:步骤2.4.1:对于sent
a
,判断sent
a
是否含有







符号,若存在,则执行以下步骤;否则把sent
a
加入到集合T中,执行步骤2.4.4;步骤2.4.2:若sent
a
包含



符号,则按照



对sent
a
进行分割;获得子句集合t
a
;步骤2.4.3:若sent
a
包含



符号,则按照



对sent
a
进行分割;依次把获得的子句加入到集合T中;步骤2.4.4:令a=a+1,重复执行步骤2.4,直到集合T_init中所有的句子遍历完毕。4.根据权利要求3所述的以读者为中心的个性化英文文本简化方法,其特征在于,所述步骤2.4.2具体包括以下步骤:步骤2.4.2.1:遍历集合t
a
,判断集合中的每个句子是否含有



符号,若有,则按照



对该句进行分割,将获得的子句依次加入到集合T中;否则直接将该句加入集合T中。5.根据权利要求1所述的以读者为中心的个性化英文文本简化方法,其特征在于,所述步骤3具体包括以下步骤:步骤3.1:采用分词工具对句子c
i
进行分词,获取对应的词语集合及对应的词性标签c
i
={{w1,p1},

,{w
j
,p
j
},

,{w
n
,p
n
}};w
j
(1≤j≤n)表示句子中第j个词语,p
j
是w
j
对应的词性标签,n表示句子c
i
的词语数目;步骤3.2:初始化j=1,将原始句子c
i
赋值给简化句子s
i
;步骤3.3:如果j等于n+1,返回简化句子s
i
,并终止迭代...

【专利技术属性】
技术研发人员:强继朋张峰李云
申请(专利权)人:扬州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1