电子词典的评测方法、装置、存储介质以及电子设备制造方法及图纸

技术编号:38102885 阅读:16 留言:0更新日期:2023-07-06 09:22
本发明专利技术公开了一种电子词典的评测方法、装置、存储介质以及电子设备。该方法包括:确定待注释的原始文本;获取原始文本的标准文本和电子词典对原始文本进行注释得到的注释文本,其中,标准文本为在电子词典注释正确的情况下原始文本的注释文本;比对注释文本与标准文本,得到电子词典的评测结果。本发明专利技术解决了电子词典评测效率低的技术问题。典评测效率低的技术问题。典评测效率低的技术问题。

【技术实现步骤摘要】
电子词典的评测方法、装置、存储介质以及电子设备


[0001]本专利技术涉及电子词典评测领域,具体而言,涉及一种电子词典的评测方法、装置、存储介质以及电子设备。

技术介绍

[0002]现有技术中,电子词典可以对文本进行注释,如翻译、注解等。电子词典的注释准确度需要定期进行评测,以避免注释错误的问题。
[0003]然而,现有技术中,电子词典的评测全靠人工操作,由人工选择一批文本,由电子词典进行注释,最后人工查看注释结果是否正确,该方法造成电子词典的评测效率低。

技术实现思路

[0004]本专利技术实施例提供了一种电子词典的评测方法、装置、存储介质以及电子设备,以至少解决电子词典评测效率低的技术问题。
[0005]根据本专利技术实施例的一个方面,提供了一种电子词典的评测方法,包括:确定待注释的原始文本;获取上述原始文本的标准文本和上述电子词典对上述原始文本进行注释得到的注释文本,其中,上述标准文本为在上述电子词典注释正确的情况下上述原始文本的注释文本;比对上述注释文本与上述标准文本,得到上述电子词典的评测结果。
[0006]作为一种可选的示例,上述比对上述注释文本与上述标准文本,得到上述电子词典的评测结果包括:将每一个上述原始文本作为当前文本,比对上述当前文本的注释文本和标准文本,得到上述当前文本的注释文本的注释分值;根据上述注释分值,确定上述电子词典的上述评测结果。
[0007]作为一种可选的示例,上述将每一个上述原始文本作为当前文本,比对上述当前文本的注释文本和标准文本,得到上述当前文本的注释文本的注释分值包括:在上述注释文本中上述当前文本的第一音标中包含上述标准文本中上述当前文本的第二音标的部分音标的情况下,确定上述部分音标占上述第二释义的占比;将上述占比的大小确定为与上述当前文本的上述注释文本的注释分值正相关。
[0008]作为一种可选的示例,在上述第一音标与上述第二音标相同的情况下的注释分值高于上述第一音标与上述第二音标不同的情况下的注释分值;和/或在上述第一音标的格式与上述第二音标的格式相同的情况下的注释分值高于上述第一音标的格式与上述第二音标的格式不同的情况下的注释分值。
[0009]作为一种可选的示例,上述注释文本中上述当前文本的第一相关词,和上述标准文本中上述当前文本的第二相关词,两者相同的情况下的注释分值高于两者不同的情况下的注释分值。
[0010]作为一种可选的示例,上述根据上述注释分值,确定上述电子词典的上述评测结果包括:在上述注释分值高于预设阈值的原始文本占所有原始文本的比例超过预设比例的情况下,确定上述评测结果为上述电子词典通过评测。
[0011]作为一种可选的示例,在根据上述注释分值,确定上述电子词典的上述评测结果之后,上述方法还包括:对上述注释分值低于第一阈值的原始文本分类,得到多类原始文本;统计每一类上述原始文本的数量;按照上述数量调整上述电子词典的注释策略。
[0012]作为一种可选的示例,上述确定待注释的原始文本包括:按照文本的重要程度从多个文本集的每一个文本集中获取一定比例的上述原始文本。
[0013]根据本专利技术实施例的另一方面,提供了一种电子词典的评测装置,包括:确定模块,用于确定待注释的原始文本;获取模块,用于获取上述原始文本的标准文本和上述电子词典对上述原始文本进行注释得到的注释文本,其中,上述标准文本为在上述电子词典注释正确的情况下上述原始文本的注释文本;比对模块,用于比对上述注释文本与上述标准文本,得到上述电子词典的评测结果。
[0014]作为一种可选的示例,上述比对模块包括:比对单元,用于将每一个上述原始文本作为当前文本,比对上述当前文本的注释文本和标准文本,得到上述当前文本的注释文本的注释分值;确定单元,用于根据上述注释分值,确定上述电子词典的上述评测结果。
[0015]作为一种可选的示例,上述比对单元包括:第一比对子单元,用于比对上述注释文本与上述标准文本中,上述当前文本的释义的相似度;将上述相似度的大小确定为与上述当前文本的上述注释文本的注释分值正相关。
[0016]作为一种可选的示例,上述第一比对子单元还用于:在上述当前文本为单词的情况下,将上述相似度的大小确定为与上述注释分值以第一系数正相关;在上述当前文本为词组的情况下,将上述相似度的大小确定为与上述注释分值以第二系数正相关;在上述当前文本为专有名词的情况下,将上述相似度的大小确定为与上述注释分值以第三系数正相关;其中,上述第一系数大于上述第二系数,上述第二系数大于上述第三系数。
[0017]作为一种可选的示例,上述比对单元包括:第二比对子单元,用于在上述注释文本中上述当前文本的第一释义中包含上述标准文本中上述当前文本的第二释义中的部分释义的情况下,确定上述部分释义占上述第二释义的占比;将上述占比的大小确定为与上述当前文本的上述注释文本的注释分值正相关。
[0018]作为一种可选的示例,上述第二比对子单元还用于:在上述当前文本为单词的情况下,将上述占比的大小确定为与上述注释分值以第一系数正相关;在上述当前文本为词组的情况下,将上述占比的大小确定为与上述注释分值以第二系数正相关;在上述当前文本为专有名词的情况下,将上述占比的大小确定为与上述注释分值以第三系数正相关;其中,上述第一系数大于上述第二系数,上述第二系数大于上述第三系数。
[0019]作为一种可选的示例,上述当前文本属于多个文本集中的一个文本集,在上述当前文本属于上述多个文本集中的不同文本集的情况下,上述当前文本的上述注释文本不同。
[0020]作为一种可选的示例,上述比对单元包括:第三比对子单元,用于在上述注释文本中上述当前文本的第一音标中包含上述标准文本中上述当前文本的第二音标的部分音标的情况下,确定上述部分音标占上述第二释义的占比;将上述占比的大小确定为与上述当前文本的上述注释文本的注释分值正相关。
[0021]作为一种可选的示例,在上述第一音标与上述第二音标相同的情况下的注释分值高于上述第一音标与上述第二音标不同的情况下的注释分值;和/或在上述第一音标的格
式与上述第二音标的格式相同的情况下的注释分值高于上述第一音标的格式与上述第二音标的格式不同的情况下的注释分值。
[0022]作为一种可选的示例,上述注释文本中上述当前文本的第一相关词,和上述标准文本中上述当前文本的第二相关词,两者相同的情况下的注释分值高于两者不同的情况下的注释分值。
[0023]作为一种可选的示例,上述确定单元包括:确定子单元,用于在上述注释分值高于预设阈值的原始文本占所有原始文本的比例超过预设比例的情况下,确定上述评测结果为上述电子词典通过评测。
[0024]作为一种可选的示例,上述确定单元还包括:调整子单元,用于在根据上述注释分值,确定上述电子词典的上述评测结果之后,对上述注释分值低于第一阈值的原始文本分类,得到多类原始文本;统计每一类上述原始文本的数量;按照上述数量调整上述电子词典的注释策略。
[0025]作为一种可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电子词典的评测方法,其特征在于,包括:确定待注释的原始文本;获取所述原始文本的标准文本和所述电子词典对所述原始文本进行注释得到的注释文本,其中,所述标准文本为在所述电子词典注释正确的情况下所述原始文本的注释文本;比对所述注释文本与所述标准文本,得到所述电子词典的评测结果。2.根据权利要求1所述的方法,其特征在于,所述比对所述注释文本与所述标准文本,得到所述电子词典的评测结果包括:将每一个所述原始文本作为当前文本,比对所述当前文本的注释文本和标准文本,得到所述当前文本的注释文本的注释分值;根据所述注释分值,确定所述电子词典的所述评测结果。3.根据权利要求2所述的方法,其特征在于,所述将每一个所述原始文本作为当前文本,比对所述当前文本的注释文本和标准文本,得到所述当前文本的注释文本的注释分值包括:比对所述注释文本与所述标准文本中,所述当前文本的释义的相似度;将所述相似度的大小确定为与所述当前文本的所述注释文本的注释分值正相关。4.根据权利要求3所述的方法,其特征在于,所述将所述相似度的大小确定为与所述当前文本的所述注释文本的注释分值正相关包括:在所述当前文本为单词的情况下,将所述相似度的大小确定为与所述注释分值以第一系数正相关;在所述当前文本为词组的情况下,将所述相似度的大小确定为与所述注释分值以第二系数正相关;在所述当前文本为专有名词的情况下,将所述相似度的大小确定为与所述注释分值以第三系数正相关;其中,所述第一系数大于所述第二系数,所述第二系数大于所述第三系数。5.根据权利要求2所述的方法,其特征在于,所述将每一个所述原始文本作为当前文本,比对所述当前文本的注释文本和标准文本,得到所述当前文本的注释文本的注释分值包括:在所述注释文本中...

【专利技术属性】
技术研发人员:王丹
申请(专利权)人:网易有道信息技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1