一种文本可读性的评价方法和装置制造方法及图纸

技术编号:34043125 阅读:12 留言:0更新日期:2022-07-06 13:58
本发明专利技术公开了一种文本可读性的评价方法和装置,评价方法通过获取目标文本和历史文本库,由于历史文本库为搜索引擎的历史搜索记录的文本集合,记录了常规字词和语句次序的表达习惯,通过历史文本库中搜索词的热度获得第一评分标准,以确定目标文本是否根据常规字词进行表达,通过历史文本库中搜索语句的语句向量获得第二评分标准,以确定目标文本是否根据常规语句次序进行表达,准确得出目标文本的可读性,进而提高了对文本可读性评价的准确性。进而提高了对文本可读性评价的准确性。进而提高了对文本可读性评价的准确性。

A method and device for evaluating text readability

【技术实现步骤摘要】
一种文本可读性的评价方法和装置


[0001]本申请涉及文本可读性评价的
,尤其涉及一种文本可读性的评价方法和装置。

技术介绍

[0002]可读性是指书报杂志或文章的文本可理解程度,对于外文文献经机器翻译后,但由于翻译过程的影响,不能确保实证研究结论能够准确代表其中文版本的可读性。目前的评价方法多通过对应领域的知名专家或学者阅读后进行主观评价,没有统一的评价标准,评价结果易受个人的主观感受出现偏差,导致评价的准确性较差。
[0003]因此,如何提高文本可读性评价的准确性,是目前亟待解决的技术问题。

技术实现思路

[0004]本专利技术的一种文本可读性的评价方法和装置,提高了对文本可读性评价的准确性。
[0005]本专利技术实施例提供了以下方案:
[0006]第一方面,本专利技术实施例提供了一种文本可读性的评价方法,所述方法包括:
[0007]获取目标文本和历史文本库,其中,所述目标文本为外文经机器翻译为中文的文本,所述历史文本库为搜索引擎的历史搜索记录的文本集合;
[0008]根据所述历史文本库中搜索词的热度,获得第一评分标准;
[0009]根据所述历史文本库中搜索语句的语句向量,获得第二评分标准;
[0010]根据所述第一评分标准和所述第二评分标准,确定所述目标文本的可读性。
[0011]在一种可选的实施例中,所述获取历史文本库,包括:
[0012]获取所述搜索引擎在第一时间段的历史搜索信息;
[0013]根据所述历史搜索信息中目标领域的所有所述搜索词和所述搜索语句,获得所述历史文本库,其中,所述目标领域为与所述目标文本分类相同的领域。
[0014]在一种可选的实施例中,所述根据所述历史文本库中搜索词的热度,获得第一评分标准,包括:
[0015]根据所述搜索词的搜索频次,确定词热度序列;
[0016]将所述词热度序列中含义相同的所述搜索词按预设规则排列,获得所述第一评分标准。
[0017]在一种可选的实施例中,所述根据所述历史文本库中搜索语句的语句向量,获得第二评分标准,包括:
[0018]将所有的所述搜索语句输入预设的Word2vec模型,对应获得所有的所述语句向量;
[0019]根据大于预设搜索频次的所述语句向量,获得所述第二评分标准。
[0020]在一种可选的实施例中,所述搜索引擎为语义搜索引擎,将所有的所述搜索语句
输入预设的Word2vec模型,对应获得所有的所述语句向量之前,还包括:
[0021]根据所述语义搜索引擎的搜索用户在第二时间段的历史搜索信息,更新所述搜索语句。
[0022]在一种可选的实施例中,所述根据所述第一评分标准和所述第二评分标准,确定所述目标文本的可读性,包括:
[0023]将所述目标文本输入分词处理模型,获得目标词组;
[0024]根据所述第一评分标准确定所述目标词组的第一分值;
[0025]根据所述第二评分标准确定所述目标词组的第二分值;
[0026]根据所述第一分值、所述第二分值和预设的权重系数,确定所述目标文本的可读性。
[0027]在一种可选的实施例中,所述根据所述第一分值、所述第二分值和预设的权重系数,确定所述目标文本的可读性,包括:
[0028]根据公式K=AS1+BS2,确定所述目标文本的可读性K,其中,A为所述第一分值,S1为第一权重系数,B为所述第二分值,S2为第二权重系数。
[0029]第二方面,本专利技术实施例还提供了一种文本可读性的评价装置,所述装置包括:
[0030]获取模块,用于获取目标文本和历史文本库,其中,所述目标文本为外文经机器翻译为中文的文本,所述历史文本库为搜索引擎的历史搜索记录的文本集合;
[0031]第一获得模块,用于根据所述历史文本库中搜索词的热度,获得第一评分标准;
[0032]第二获得模块,用于根据所述历史文本库中搜索语句的语句向量,获得第二评分标准;
[0033]确定模块,用于根据所述第一评分标准和所述第二评分标准,确定所述目标文本的可读性。
[0034]第三方面,本专利技术实施例还提供了一种电子设备,包括处理器和存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述电子设备执行第一方面中任一项所述方法的步骤。
[0035]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述方法的步骤。
[0036]本专利技术提供的一种文本可读性的评价方法和装置与现有技术相比,具有以下优点:
[0037]本专利技术通过获取目标文本和历史文本库,由于历史文本库为搜索引擎的历史搜索记录的文本集合,记录了常规字词和语句次序的表达习惯,通过历史文本库中搜索词的热度获得第一评分标准,以确定目标文本是否根据常规字词进行表达,通过历史文本库中搜索语句的语句向量获得第二评分标准,以确定目标文本是否根据常规语句次序进行表达,准确得出目标文本的可读性,进而提高了对文本可读性评价的准确性。
附图说明
[0038]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附
图获得其他的附图。
[0039]图1为本专利技术实施例提供的一种文本可读性的评价方法的流程图;
[0040]图2为本专利技术实施例提供的一种文本可读性的评价装置的结构示意图。
具体实施方式
[0041]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术实施例保护的范围。
[0042]请参阅图1,图1为本专利技术实施例提供的一种文本可读性的评价方法的流程图,所述方法包括:
[0043]S11、获取目标文本和历史文本库,其中,所述目标文本为外文经机器翻译为中文的文本,所述历史文本库为搜索引擎的历史搜索记录的文本集合;
[0044]具体的,目标文本为外文经机器翻译为中文的文本,由于外文的表达习惯与中文存在较大区别,机器翻译时不能准确翻译出适宜国人习惯的表达词汇和语句,尤其是科技类领域的翻译文献,大多涉及专有名词,外文的一个词汇可能对照能翻译出多种中文的表达词,导致目标文本晦涩难懂。目标文本可以是通过网络直接获取的电子文本,也可以通过机器视觉扫描纸质文本,再对应提取出电子文本。历史文本库可以根据搜索引擎的历史搜索记录获取,例如通过python工具处理指定的搜索引擎获取。
[0045]在一种具体的实施方式中,获取历史文本库,包括:
[0046]获取搜索引擎在第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本可读性的评价方法,其特征在于,所述方法包括:获取目标文本和历史文本库,其中,所述目标文本为外文经机器翻译为中文的文本,所述历史文本库为搜索引擎的历史搜索记录的文本集合;根据所述历史文本库中搜索词的热度,获得第一评分标准;根据所述历史文本库中搜索语句的语句向量,获得第二评分标准;根据所述第一评分标准和所述第二评分标准,确定所述目标文本的可读性。2.根据权利要求1所述的文本可读性的评价方法,其特征在于,所述获取历史文本库,包括:获取所述搜索引擎在第一时间段的历史搜索信息;根据所述历史搜索信息中目标领域的所有所述搜索词和所述搜索语句,获得所述历史文本库,其中,所述目标领域为与所述目标文本分类相同的领域。3.根据权利要求1所述的文本可读性的评价方法,其特征在于,所述根据所述历史文本库中搜索词的热度,获得第一评分标准,包括:根据所述搜索词的搜索频次,确定词热度序列;将所述词热度序列中含义相同的所述搜索词按预设规则排列,获得所述第一评分标准。4.根据权利要求1所述的文本可读性的评价方法,其特征在于,所述根据所述历史文本库中搜索语句的语句向量,获得第二评分标准,包括:将所有的所述搜索语句输入预设的Word2vec模型,对应获得所有的所述语句向量;根据大于预设搜索频次的所述语句向量,获得所述第二评分标准。5.根据权利要求4所述的文本可读性的评价方法,其特征在于,所述搜索引擎为语义搜索引擎,将所有的所述搜索语句输入预设的Word2vec模型,对应获得所有的所述语句向量之前,还包括:根据所述语义搜索引擎的搜索用户在第二时间段的历史搜索信息,更新所述搜索语句。6.根据权利要求1所述的文本可读性...

【专利技术属性】
技术研发人员:胡楠
申请(专利权)人:武汉文构数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1