一种输入法评测方法、装置、设备及存储介质制造方法及图纸

技术编号:24613285 阅读:17 留言:0更新日期:2020-06-24 01:02
本申请提出一种输入法评测方法、装置、设备及存储介质。该方法包括:从目标群体的历史输入文本中确定出至少一个文本单元集合,每一文本单元集合中的各文本单元对应同一编码信息;分别将每一文本单元集合对应的编码信息输入待评测输入法,得到与每一文本单元集合对应的解码结果集合,所述解码结果集合中包括所述待评测输入法对编码信息进行解码得到的至少一个解码结果;至少根据各个文本单元集合及其对应的解码结果集合,确定所述目标群体对所述待评测输入法的评测结果。上述的评测方法实现了对待评测输入法的解码效果的评测,应用该评测方法可以使用户及开发者了解待评测输入法的解码效果。

A method, device, equipment and storage medium for input method evaluation

【技术实现步骤摘要】
一种输入法评测方法、装置、设备及存储介质
本申请涉及输入法评测
,尤其涉及一种输入法评测方法、装置、设备及存储介质。
技术介绍
输入法是用户向电子设备输入文本内容的常用工具。用户在输入法输入的信息作为编码信息,输入法对用户输入的编码信息进行解码得到的文本解码结果,用户从输入法解码得到的文本解码结果中选择文本解码结果作为输入的文本内容。一款好的输入法对用户输入的编码信息的解码结果,应当符合用户的文本输入预期,从而保证用户的文本输入效率。而市面上的输入法琳琅满目,各种输入法的解码效果也各不相同,此时,如何对输入法进行评测从而了解输入法的解码效果,成为了开发者开发输入法以及用户选择输入法时的现实需求。
技术实现思路
基于上述需求,本申请提出一种输入法评测方法、装置、设备及存储介质,能够实现对输入法的评测。一种输入法评测方法,包括:从目标群体的历史输入文本中确定出至少一个文本单元集合,每一文本单元集合中的各文本单元对应同一编码信息;其中,所述同一编码信息的编码规范与待评测输入法的编码规范一致;分别将每一文本单元集合对应的编码信息输入待评测输入法,得到与每一文本单元集合对应的解码结果集合,所述解码结果集合中包括所述待评测输入法对编码信息进行解码得到的至少一个解码结果;至少根据各个文本单元集合及其对应的解码结果集合,确定所述目标群体对所述待评测输入法的评测结果。一种输入法评测装置,包括:测试集确定单元,用于从目标群体的历史输入文本中确定出至少一个文本单元集合,每一文本单元集合中的各文本单元对应同一编码信息;其中,所述同一编码信息的编码规范与待评测输入法的编码规范一致;测试数据获取单元,用于分别将每一文本单元集合对应的编码信息输入待评测输入法,得到与每一文本单元集合对应的解码结果集合,所述解码结果集合中包括所述待评测输入法对编码信息进行解码得到的至少一个解码结果;评测结果确定单元,用于至少根据各个文本单元集合及其对应的解码结果集合,确定所述目标群体对所述待评测输入法的评测结果。一种输入法评测设备,包括:存储器和处理器;其中,所述存储器与所述处理器连接,用于存储程序;所述处理器,用于通过运行所述存储器中存储的程序,实现上述的输入法评测方法。一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的输入法评测方法。本申请提出的输入法评测方法从目标群体的历史输入文本中确定出文本单元集合,并且每个文本单元集合对应同一编码信息;将与每个文本单元集合对应的编码信息输入待评测输入法得到与每个文本单元集合对应的解码结果集合;根据各个文本单元集合及其对应的解码结果集合,确定对待评测输入法的评测结果。上述的评测方法实现了对待评测输入法的解码效果的评测,应用该评测方法可以使用户及开发者了解待评测输入法的解码效果。进一步的,本申请上述的输入法评测方法将同一编码信息及其对应的文本单元集合作为测试集对待评测输入法进行评测,该评测方法的测试集包含的预期结果不唯一,对应同一编码信息的较多的预期结果可以减少将待评测输入法的解码结果误判为错误的解码结果的情况发生,因此能够提高对待评测输入法评测的客观性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1是本申请实施例提供的一种输入法评测方法的流程示意图;图2是本申请实施例提供的另一种输入法评测方法的流程示意图;图3是本申请实施例提供的一种输入法评测装置的结构示意图;图4是本申请实施例提供的一种输入法评测设备的结构示意图。具体实施方式本申请实施例技术方案适用于对输入法进行评测的应用场景,采用本申请实施例技术方案,能够对输入法的解码效果进行评测,从而为开发者开发输入法以及用户选择输入法提供依据。需要说明的是,输入法解码包括静态解码和对解码结果进行动态调整两种处理。静态解码是输入法不可或缺的一部分处理内容,它属于输入法的核心技术,输入法的静态解码处理会根据相应的输入给出符合大众需求的排序解码结果,随后在用户使用输入法的过程中根据用户个人使用习惯进行再一次的解码结果动态调序,得出最终的解码结果。静态解码的准确性是影响输入法效果的最重要因素之一。本申请实施例所提出的输入法评测方法,主要用户对输入法的静态解码效果进行评测。其中,上述的输入法可以是任意的输入法,例如拼音输入法、五笔书法、手写输入法等。在现有技术中存在一些常见的输入法评测方法,但是这些评测方法的客观性较差,因此其评测并不准确。例如,常见的对拼音输入法的评测方法为评测拼音输入法的解码结果top1至top5的命中率。该评测方法的测试集制作方法一般为,寻找一批常用词语、口语聊天等内容,进行各种编码信息的标注,形成一个编码标注信息对应一个预期文本结果(常用词语、口语聊天内容等)的测试集,将大批量的测试集一起组成完整的解码效果测试集。具体的测试方法是将测试集的编码信息输入拼音输入法引擎得到多个有序的解码结果,将标注的预期文本结果和引擎输出的有序解码结果进行对比,记下标注的预期文本结果处在引擎解码结果的第n位,若该解码结果中无标注的预期文本结果则记为0,得出预期文本结果处在前1位、前2位、前3位、前4位、前5位的百分占比即top1至top5的命中率,该命中率即作为对拼音输入法的解码效果评测结果。上述的评测方法对测试集的依赖性比较大,理论上,一个固定的输入编码信息有多种合理的解码结果,比如对于不同的用户,或者在不同的文本输入场景下,其编码结果理应发生变化。但是测试集只有一个预期文本结果,导致合理但是不与预期文本结果一致的解码结果被统计到解码错误的行列。对于其他类型的输入法的现有评测方法也存在上述问题。由此可见,受制于测试集的限制,常见的对输入法的评测方法均不够客观,其评测可信度较差。为了解决上述问题,本申请实施例提出一种输入法评测方法,能够实现对输入法的解码效果的客观评测。下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。参见图1所示,本申请实施例提出的输入法评测方法,包括:S101、从目标群体的历史输入文本中确定出至少一个文本单元集合,每一文本单元集合中的各文本单元对应同一编码信息。其中,所述同一编码信息的编码规范与待评测输入法的编码规范一致。具体的,在本申请实施例中,上述的待评测输入法,是指可以由用户输入编码信息,该待评测输入法能本文档来自技高网...

【技术保护点】
1.一种输入法评测方法,其特征在于,包括:/n从目标群体的历史输入文本中确定出至少一个文本单元集合,每一文本单元集合中的各文本单元对应同一编码信息;其中,所述同一编码信息的编码规范与待评测输入法的编码规范一致;/n分别将每一文本单元集合对应的编码信息输入待评测输入法,得到与每一文本单元集合对应的解码结果集合,所述解码结果集合中包括所述待评测输入法对编码信息进行解码得到的至少一个解码结果;/n至少根据各个文本单元集合及其对应的解码结果集合,确定所述目标群体对所述待评测输入法的评测结果。/n

【技术特征摘要】
1.一种输入法评测方法,其特征在于,包括:
从目标群体的历史输入文本中确定出至少一个文本单元集合,每一文本单元集合中的各文本单元对应同一编码信息;其中,所述同一编码信息的编码规范与待评测输入法的编码规范一致;
分别将每一文本单元集合对应的编码信息输入待评测输入法,得到与每一文本单元集合对应的解码结果集合,所述解码结果集合中包括所述待评测输入法对编码信息进行解码得到的至少一个解码结果;
至少根据各个文本单元集合及其对应的解码结果集合,确定所述目标群体对所述待评测输入法的评测结果。


2.根据权利要求1所述的方法,其特征在于,所述从目标群体的历史输入文本中确定出至少一个文本单元集合,包括:
获取目标群体在设定时间段内的历史输入文本;
对所述历史输入文本进行文本单元划分处理,得到各个文本单元,以及分别确定与各个文本单元对应的编码信息;
由所述各个文本单元中的、与同一编码信息对应的各个文本单元,组成与该同一编码信息对应的文本单元集合。


3.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定各个文本单元集合中的各个文本单元的评分分值,以及确定各个解码结果集合中的各个解码结果的评分分值;其中,所述评分分值至少基于词频属性确定,所述词频属性为高频,或中频,或低频;
则,所述至少根据各个文本单元集合及其对应的解码结果集合,确定所述目标群体对所述待评测输入法的评测结果,包括:
根据各个文本单元集合和各个文本单元集合中的各个文本单元的评分分值,以及各个解码结果集合和各个解码结果集合中的各个解码结果的评分分值,确定所述目标群体对所述待评测输入法的评测结果。


4.根据权利要求3所述的方法,其特征在于,所述确定各个文本单元集合中的各个文本单元的评分分值,包括:
分别确定各个文本单元集合中的各个文本单元在所述目标群体的历史输入文本中的词频属性;
至少根据各个文本单元集合中的各个文本单元在所述目标群体的历史输入文本中的词频属性,以及预设的基于词频属性的评分规则,分别确定各个文本单元集合中的各个文本单元的评分分值。


5.根据权利要求4所述的方法,其特征在于,所述分别确定各个文本单元集合中的各个文本单元在所述目标群体的历史输入文本中的词频属性,包括:
对应各个文本单元集合中的每个文本单元,分别根据其字长和其在所述目标群体的历史输入文本中出现的次数,确定其词频属性。


6.根据权利要求4所述的方法,其特征在于,所述基于词频属性的评分规则为评分分值大小与词频属性和/或词频排名相关的评分规则。


7.根据权利要求3所述的方法,其特征在于,所述确定各个解码结果集合中的各个解码结果的评分分值,包括:
分别确定各个文本单元集合中的各个文本单元在所述目标群体的历史输入文本中的词频属性;
对应每个解码结果集合中的每个解码结果,分别将与该解码结果所在的解码结果集合对应的文本单元集合中的、与该解码结果的内容相同的文本单元的词频属性,设定为该解码结果的词频属性;
至少根据各个解码结果集合中的各个解码结果的词频属性,以及预设的基于词频属性的评分规则,分别确定各个解码结果集合中的各个解码结果的评分分值。


8.根据权利要求3所述的方法,其特征在于,所述根据各个文本单元集合和各个文本单元集合中的各个文本单元的评分分值,以及各个解码结果集合和各个解码结果集合中的各个解码结果的评分分值,确定所述目标群体对所述待评测输入法的评测结果,包括:
对应每个文本单元集合,分别将该文本单元集合中的各个文本单元按照在所述目标群体的历史输入文本中出现的次数由高到低的顺序进行排序;
计算各个文本单元集合的前n个文本单元的评分分值的总和,以及计算各个解码结果集合的前n个解码结果的评分分值的总和;其...

【专利技术属性】
技术研发人员:杨勤英殷运鹏宋明
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1