【技术实现步骤摘要】
以读者为中心的个性化英文文本简化方法
[0001]本专利技术涉及英文文本简化领域,特别涉及一种以读者为中心的个性化英文文本简化方法。
技术介绍
[0002]近年来,随着互联网的发展,大量英文文本出现在大众视野当中。比如很多在英文期刊上下载的专业论文,很多人选择直接阅读这些专业论文,而不是先把论文翻译成自己的母语,然后进行阅读。对于这些文本,如果文本中包含大量非常用、生僻的词汇,将严重制约读者对文本内容意思的理解。研究证明,如果文本中有90%的英文词汇在读者的认知范围内,即便文本长而复杂,文本的内容意思也可以很容易地被读者理解。
[0003]英文文本简化旨在通过简化文本中的词汇或者句法,使得读者能够读懂文本的意思,同时最大限度的保留原文本信息。对于给定的一段输入文本,文本简化系统使用简单的词汇替换文本中复杂的单词需要满足两个条件:1)输出文本应尽可能保留输入的含义;2)输出文本应尽量减少复杂单词(读者无法理解的单词)的数量。这两个条件会产生冲突,为了降低文本的复杂性,系统会选择最简单的候选替代词。然而选择最简单的候选替代词时,文本的原始语义又无法得到保证。现有的文本简化算法没有考虑读者的认知水平,盲目地设定一些词频相对较低的词汇作为复杂词汇,使用词义接近的词汇替代复杂词汇,从而达到文本简化效果,加大简化后的文本意思与原文本意思差异的风险。
技术实现思路
[0004]本专利技术的目的是克服现有技术缺陷,提供一种以读者为中心的个性化英文文本简化方法,根据读者认知范围,检索文本中需要简化的内容,通过在 ...
【技术保护点】
【技术特征摘要】
1.一种以读者为中心的个性化英文文本简化方法,其特征在于,包括以下步骤:步骤1、根据读者当前具备的的英文等级,设置当前简化方法的简化等级,并获取该等级对应的词库R;步骤2、假设读者当前阅读的文档Text,采用句子分割方法,对Text进行分句,得到句子集合T={c1,
…
,c
i
,
…
,c
m
};m表示集合T中的句子数目;步骤3、采用句子词语简化方法从前到后依次对T中的每个句子c
i
(1≤i≤m)进行简化,获取简化后的句子集合SS={s1,
…
,s
i
,
…
,s
m
},并返回SS给读者。2.根据权利要求1所述的以读者为中心的个性化英文文本简化方法,其特征在于,所述步骤2具体包括以下步骤:步骤2.1:定义集合T,初始值为空;步骤2.2:删除文档Text中特殊符号、多余字符;步骤2.3:按照
‘
.
’
对文档Text进行分割,得到初始的句子集合T_init;步骤2.4:依次遍历集合T_init中的句子sent
a
,a的初值为1。3.根据权利要求2所述的以读者为中心的个性化英文文本简化方法,其特征在于,所述步骤2.4具体包括以下步骤:步骤2.4.1:对于sent
a
,判断sent
a
是否含有
‘
?
’
,
‘
!
’
符号,若存在,则执行以下步骤;否则把sent
a
加入到集合T中,执行步骤2.4.4;步骤2.4.2:若sent
a
包含
‘
!
’
符号,则按照
‘
!
’
对sent
a
进行分割;获得子句集合t
a
;步骤2.4.3:若sent
a
包含
‘
?
’
符号,则按照
‘
?
’
对sent
a
进行分割;依次把获得的子句加入到集合T中;步骤2.4.4:令a=a+1,重复执行步骤2.4,直到集合T_init中所有的句子遍历完毕。4.根据权利要求3所述的以读者为中心的个性化英文文本简化方法,其特征在于,所述步骤2.4.2具体包括以下步骤:步骤2.4.2.1:遍历集合t
a
,判断集合中的每个句子是否含有
‘
?
’
符号,若有,则按照
‘
?
’
对该句进行分割,将获得的子句依次加入到集合T中;否则直接将该句加入集合T中。5.根据权利要求1所述的以读者为中心的个性化英文文本简化方法,其特征在于,所述步骤3具体包括以下步骤:步骤3.1:采用分词工具对句子c
i
进行分词,获取对应的词语集合及对应的词性标签c
i
={{w1,p1},
…
,{w
j
,p
j
},
…
,{w
n
,p
n
}};w
j
(1≤j≤n)表示句子中第j个词语,p
j
是w
j
对应的词性标签,n表示句子c
i
的词语数目;步骤3.2:初始化j=1,将原始句子c
i
赋值给简化句子s
i
;步骤3.3:如果j等于n+1,返回简化句子s
i
,并终止迭代...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。