一种用于确定地域词库的方法与装置制造方法及图纸

技术编号:14884450 阅读:94 留言:0更新日期:2017-03-25 00:09
本发明专利技术的目的是提供一种用于确定地域词库的方法与装置。本发明专利技术获取多个用户的对应于地域信息的历史输入信息,并根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个对应于地域信息的候选地域词库以及确定与全部所述地域信息相对应的一个或多个通用词条,最后从所述候选地域词库中筛除所述通用词条,以确定一个或多个地域词库。与现有技术相比,本发明专利技术采用差分方式来对候选地域词库中的通用词条进行筛选,实现了地域词库的自动生成与自动更新,减少了人工收集数据的人力成本;而且,本发明专利技术改善了地域词库臃肿的缺陷,使得地域词库更加简约、准确,便于用户随时加载使用,最终提升用户的输入效率,改善了用户体验。

【技术实现步骤摘要】

本专利技术涉及输入法
,尤其涉及一种用于确定地域词库的技术。
技术介绍
在输入法领域中,当用户输入了输入字符串之后,输入法会依据不同的词库来检索与该输入字符串相对应的输入候选项;而由于语言存在地域性,因此,不同地域的人,其常用的输入候选项也有所不同。而在当前输入法的使用过程中,无论是在北京、河北、河南等全国任何地方,所提供的输入候选项都是相同的;即使输入法提供不同的地域词库,所提供的地域词库也十分臃肿,难以符合用户对系统资源占用以及精确输入的需求。
技术实现思路
本专利技术的目的是提供一种用于确定地域词库的方法与装置。根据本专利技术的一个方面,提供了一种用于确定地域词库的方法,其中,该方法包括以下步骤:a获取多个用户的历史输入信息,其中,所述历史输入信息对应于所述用户的地域信息;b根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息;c根据所述历史输入信息,确定与全部所述地域信息相对应的一个或多个通用词条;d从所述候选地域词库中筛除所述通用词条,以确定一个或多个地域词库。可选地,所述步骤a包括:-获取多个用户的多个历史输入信息;-根据所述多个用户的每个历史输入信息的输入场景信息,确定与所述历史输入信息相对应的地域信息。可选地,所述输入场景信息包括以下至少任一项:-所述历史输入信息所对应的输入地点;-所述历史输入信息所对应的输入时间;-所述历史输入信息所对应的上下文信息;-所述历史输入信息所对应的交互对象信息。可选地,该方法还包括:x分别确定与多个用户相对应的地域信息;其中,所述步骤a包括:-当所述用户输入一条或多条输入信息时,将所述输入信息作为历史输入信息,并将所确定的地域信息作为所述历史输入信息所对应的地域信息。可选地,所述步骤x包括:-分别确定与多个用户相对应的候选地域信息;-当所述用户在所述候选地域信息的时间超过预定时间阈值时,将所述候选地域信息作为与所述用户相对应的地域信息。可选地,所述步骤b包括:-根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,将所述历史输入信息中超过预定频率的词条确定为候选词条信息,其中,所述预定频率与所述地域信息相对应;-根据所述候选词条信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息。可选地,所述步骤c包括:-若所述历史输入信息中的一个或多个词条包含在超过预定数目的候选地域词库中,则将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。可选地,所述步骤c包括:-若所述历史输入信息中的一个或多个词条包含在超过预定数目的多个候选地域词库中,且所述多个候选地域词库所对应的地域信息间的关联关系小于一定阈值,则将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。可选地,该方法还包括:-根据各个地域信息所对应的地理位置和/或人文信息,确定所述地域信息间的关联关系。可选地,该方法还包括:-根据所述一个或多个通用词条,确定或更新通用词库,其中,所述通用词库中包含所述一个或多个通用词条。根据本专利技术的另一方面,还提供了一种用于确定地域词库的确定装置,其中,所述确定装置包括:获取装置,用于获取多个用户的历史输入信息,其中,所述历史输入信息对应于所述用户的地域信息;候选确定装置,用于根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息;通用确定装置,用于根据所述历史输入信息,确定与全部所述地域信息相对应的一个或多个通用词条;筛选装置,用于从所述候选地域词库中筛除所述通用词条,以确定一个或多个地域词库。可选地,所述获取装置用于:-获取多个用户的多个历史输入信息;-根据所述多个用户的每个历史输入信息的输入场景信息,确定与所述历史输入信息相对应的地域信息。可选地,所述输入场景信息包括以下至少任一项:-所述历史输入信息所对应的输入地点;-所述历史输入信息所对应的输入时间;-所述历史输入信息所对应的上下文信息;-所述历史输入信息所对应的交互对象信息。可选地,所述确定装置还包括:地域确定装置,用于分别确定与多个用户相对应的地域信息;其中,所述获取装置用于:-当所述用户输入一条或多条输入信息时,将所述输入信息作为历史输入信息,并将所确定的地域信息作为所述历史输入信息所对应的地域信息。可选地,所述地域确定装置用于:-分别确定与多个用户相对应的候选地域信息;-当所述用户在所述候选地域信息的时间超过预定时间阈值时,将所述候选地域信息作为与所述用户相对应的地域信息。可选地,所述候选确定装置用于:-根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,将所述历史输入信息中超过预定频率的词条确定为候选词条信息,其中,所述预定频率与所述地域信息相对应;-根据所述候选词条信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息。可选地,所述通用确定装置用于:-若所述历史输入信息中的一个或多个词条包含在超过预定数目的候选地域词库中,则将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。可选地,所述通用确定装置用于:-若所述历史输入信息中的一个或多个词条包含在超过预定数目的多个候选地域词库中,且所述多个候选地域词库所对应的地域信息间的关联关系小于一定阈值,则将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。可选地,所述确定装置还包括:关联确定装置,用于根据各个地域信息所对应的地理位置和/或人文信息,确定所述地域信息间的关联关系。可选地,所述确定装置还包括:通用词库确定装置,用于根据所述一个或多个通用词条,确定或更新通用词库,其中,所述通用词库中包含所述一个或多个通用词条。根据本专利技术的又一方面,还提供了一种输入设备,包括如上述任一项所述的确定装置。与现有技术相比,本专利技术获取多个用户的对应于地域信息的历史输入信息,并根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个对应于地域信息的候选地域词库以及确定与全部所述地域信息相对应的一个或多个通用词条,最后从所述候选地域词库中筛除所述通用词条,以确定一个或多个地域词库。从而本专利技术采用差分方式来对候选地域词库中的通用词条进行筛选,实现了地域词库的自动生成与自动更新,减少了人工收集数据的人力成本;而且,相比现有技术中仅基于在同一地域下输入的词条所确定的该地域的地域词库,本专利技术所生成的地域词库筛除了通用词条,改善了地域词库臃肿的缺陷,使得地域词库更加简约、准确,便于用户随时加载使用,最终提升用户的输入效率,改善了用户体验。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1示出根据本专利技术一个方面的一种用于确定地域词库的确定装置示意图;图2示出根据本专利技术的一个优选实施例的一种用于确定地域词库的确定装置示意图;图3示出根据本专利技术另一个方面的一种用于确定地域词库的方法流程图;图4示出根据本专利技术的一个优选实施例的一种用于确定地域词库的方法流程图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式在更加详细地讨论示例性实施例之前应当提到的本文档来自技高网...
一种用于确定地域词库的方法与装置

【技术保护点】
一种用于确定地域词库的方法,其中,该方法包括以下步骤:a获取多个用户的历史输入信息,其中,所述历史输入信息对应于所述用户的地域信息;b根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息;c根据所述历史输入信息,确定与全部所述地域信息相对应的一个或多个通用词条;d从所述候选地域词库中筛除所述通用词条,以确定一个或多个地域词库。

【技术特征摘要】
1.一种用于确定地域词库的方法,其中,该方法包括以下步骤:a获取多个用户的历史输入信息,其中,所述历史输入信息对应于所述用户的地域信息;b根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息;c根据所述历史输入信息,确定与全部所述地域信息相对应的一个或多个通用词条;d从所述候选地域词库中筛除所述通用词条,以确定一个或多个地域词库。2.根据权利要求1所述的方法,其中,所述步骤a包括:-获取多个用户的多个历史输入信息;-根据所述多个用户的每个历史输入信息的输入场景信息,确定与所述历史输入信息相对应的地域信息。3.根据权利要求2所述的方法,其中,所述输入场景信息包括以下至少任一项:-所述历史输入信息所对应的输入地点;-所述历史输入信息所对应的输入时间;-所述历史输入信息所对应的上下文信息;-所述历史输入信息所对应的交互对象信息。4.根据权利要求1所述的方法,其中,该方法还包括:x分别确定与多个用户相对应的地域信息;其中,所述步骤a包括:-当所述用户输入一条或多条输入信息时,将所述输入信息作为历史输入信息,并将所确定的地域信息作为所述历史输入信息所对应的地域信息。5.根据权利要求4所述的方法,其中,所述步骤x包括:-分别确定与多个用户相对应的候选地域信息;-当所述用户在所述候选地域信息的时间超过预定时间阈值时,将所述候选地域信息作为与所述用户相对应的地域信息。6.根据权利要求1至5中任一项所述的方法,其中,所述步骤b包括:-根据所述历史输入信息以及所述历史输入信息所对应的所述地域信息,将所述历史输入信息中超过预定频率的词条确定为候选词条信息,其中,所述预定频率与所述地域信息相对应;-根据所述候选词条信息,确定一个或多个候选地域词库,其中,每个候选地域词库对应于一个地域信息。7.根据权利要求1至6中任一项所述的方法,其中,所述步骤c包括:-若所述历史输入信息中的一个或多个词条包含在超过预定数目的候选地域词库中,则将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。8.根据权利要求7所述的方法,其中,所述步骤c包括:-若所述历史输入信息中的一个或多个词条包含在超过预定数目的多个候选地域词库中,且所述多个候选地域词库所对应的地域信息间的关联关系小于一定阈值,则将所述词条确定为与全部所述地域信息相对应的一个或多个通用词条。9.根据权利要求8所述的方法,其中,该方法还包括:-根据各个地域信息所对应的地理位置和/或人文信息,确定所述地域信息间的关联关系。10.根据权利要求1至9中任一项所述的方法,其中,该方法还包括:-根据所述一个或多个通用词条,确定或更新通用词库,其中,所述通用词库中包含所述一个或多个通用词条。11.一种用于确定地域词库的确定装置,其中,所述确定装置包括:获取装置,用于获取多个用户的历史输入信息,其中,所述历史输入信息对应于所述用户的地域信息...

【专利技术属性】
技术研发人员:崔红伟
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1