【技术实现步骤摘要】
一种文本简化方法、装置、设备及存储介质
[0001]本公开实施例涉及自然语言处理
,尤其涉及一种文本简化方法、装置、设备及存储介质。
技术介绍
[0002]文本简化是指将包含复杂句式和词汇的文本转换为简单句式和词汇的文本,以降低文本的难度和复杂性。对于外语学习者或知识水平低的人群,简化后的文本更易于理解和阅读。
[0003]传统的文本简化方法主要包括基于规则的简化方法、词汇简化方法、语法简化方法以及端到端的简化方法,但效果欠佳。
[0004]公开内容
[0005]本公开实施例提供一种文本简化方法、装置、设备及存储介质,可以优化现有的文本简化方案,满足不同人群的需求。
[0006]第一方面,本公开实施例提供了一种文本简化方法,包括:
[0007]获取目标文本难度系数和待简化的第一文本,并确定所述第一文本的第一文本难度系数,所述目标文本难度系数为简化后的第一文本的文本难度系数;
[0008]根据所述第一文本难度系数和目标文本难度系数,对所述第一文本进行简化,得到与所述目标文本 ...
【技术保护点】
【技术特征摘要】
1.一种文本简化方法,其特征在于,包括:获取目标文本难度系数和待简化的第一文本,并确定所述第一文本的第一文本难度系数,所述目标文本难度系数为简化后的第一文本的文本难度系数;根据所述第一文本难度系数和目标文本难度系数,对所述第一文本进行简化,得到与所述目标文本难度系数对应的目标文本。2.根据权利要求1所述的方法,其特征在于,所述第一文本难度系数包括所述第一文本的词汇难度系数、句法难度系数和长度难度系数中的至少之一;所述目标文本难度系数包括所述目标文本的词汇难度系数、句法难度系数和长度难度系数中的至少之一。3.根据权利要求2所述的方法,其特征在于,所述获取目标文本难度系数,包括:接收用户输入的所述目标文本的词汇难度系数、句法难度系数和长度难度系数中的至少之一,得到目标文本难度系数。4.根据权利要求2所述的方法,其特征在于,所述获取目标文本难度系数,包括:获取用户的身份信息,所述身份信息包括所述用户的知识水平;根据所述用户的知识水平,确定所述目标文本的词汇难度系数、句法难度系数和长度难度系数中的至少之一,得到目标文本难度系数。5.根据权利要求2所述的方法,其特征在于,确定所述第一文本的词汇难度系数,包括:获取语料样本;将所述语料样本输入预先训练的词嵌入模型,由所述预先训练的词嵌入模型输出所述语料样本中各分词在所述语料样本中出现的频数,并基于各所述分词和对应的频数形成字典;对所述第一文本进行分词处理,得到至少一个文本分词;针对每一个文本分词,在所述字典中进行查找,得到所述文本分词对应的频数;将各所述文本分词的频数的均值作为所述第一文本的词汇难度系数。6.根据权利要求2所述的方法,其特征在于,确定所述第一文本的句法难度系数,包括:将所述第一文本转换为句法树,所述句法树用于分析所述第一文本的句法;确定所述句法树包含的层级数量,并将所述层级数量作为所述第一文本的句法难度系数。7.根据权利要求2所述的方法,其特征在于,确定所述第一文本的长度难度系数,包括:统计所述第一文本所包含分词的数量,并将所述数量作为所述第一文本的长度难度系数。8.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本难度系数和目标文本难度系数,对所述第一文本进行简化,得到与所述目标文本难度系数对应的目标文本,包括:根据...
【专利技术属性】
技术研发人员:张闯,吴培昊,
申请(专利权)人:北京有竹居网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。