一种输入方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号:36367046 阅读:61 留言:0更新日期:2023-01-18 09:23
本申请实施例提供了一种输入方法、装置、电子设备及计算机存储介质。根据本申请实施例提供的输入方案,获取用户的输入文本,根据所述用户的标识确定所述用户的偏好语种分布;采用预先训练的语种识别模型确定所述输入文本的语种的第一预测分布;根据所述第一预测分布和所述偏好语种分布,生成对所述输入文本的语种的第二预测分布;根据所述第二预测分布确定所述输入文本的预测语种。通过利用用户的偏好语种分布来对语种识别模型的第一预测分布进行纠正,从而在用户粒度上增强了语种识别的个性化和准确率。性化和准确率。性化和准确率。

【技术实现步骤摘要】
一种输入方法、装置、电子设备及计算机存储介质


[0001]本申请实施例涉及计算机
,尤其涉及一种输入方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]随着全球化和互联化的发展,在文本中多语言混用的现象越来越多,服务的用户所使用的语种也越来越多。例如,在电商场景中,用户可能有使用英语、法语、或者德语等多个不同语种的用户。同时用户输入的搜索词还往往具有不规范和多语言歧义的问题,例如:“basket”在法语中是“篮球鞋”的意思,但是在英语中却是“篮筐”的意思,此时通过关键词本身就难以做出准确的语种识别。
[0003]基于此,需要一种更准确的输入方案。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种输入方案,以至少部分解决上述问题。根据本申请实施例的第一方面,提供了一种输入方法,包括:
[0005]获取用户的输入文本,根据所述用户的标识确定所述用户的偏好语种分布;采用预先训练的语种识别模型确定所述输入文本的语种的第一预测分布;根据所述第一预测分布和所述偏好语种分布,生成对所述输入文本的语种的第二预测分布;根据所述第二预测分布确定所述输入文本的预测语种。
[0006]根据本申请实施例的第二方面,提供了一种输入装置,所述装置包括:
[0007]用户偏好确定模块,获取用户的输入文本,根据所述用户的标识确定所述用户的偏好语种分布;第一预测模块,采用预先训练的语种识别模型确定所述输入文本的语种的第一预测分布;第二预测模块,根据所述第一预测分布和所述偏好语种分布,生成对所述输入文本的语种的第二预测分布;输入语种确定模块,将所述第二预测分布中分值满足预设条件的语种确定为所述输入文本的预测语种。
[0008]根据本申请实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的输入方法对应的操作。
[0009]根据本申请实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的输入方法对应的操作。
[0010]根据本申请实施例提供的输入方案,获取用户的输入文本,根据所述用户的标识确定所述用户的偏好语种分布;采用预先训练的语种识别模型确定所述输入文本的语种的第一预测分布;根据所述第一预测分布和所述偏好语种分布,生成对所述输入文本的语种的第二预测分布;根据所述第二预测分布确定所述输入文本的预测语种。通过利用用户的偏好语种分布来对语种识别模型的第一预测分布进行纠正,从而在用户粒度上增强了语种
识别的个性化和准确率。
附图说明
[0011]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0012]图1为当前技术中所涉及的多语种的数据存储的架构示意图;
[0013]图2为本申请实施例所提供的一种输入方法的流程示意图;
[0014]图3为本申请实施例所提供的一种输入的逻辑框架示意图;
[0015]图4为本申请实施例所提供的一种输入装置的结构示意图;
[0016]图5为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
[0017]为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
[0018]语种识别是进行文本翻译、数据过滤、文本预处理等行为的基础。例如,在实际应用中,对于不同语种的相关数据不会混合存储,而是存储在对应的不同的数据库中。如图1所示,图1为当前技术中所涉及的多语种的数据存储的架构示意图。在相关场景中,如果不预先进行语种识别,那么搜索数据时可能实际上就要进行跨域搜索或者处理,效率很低。
[0019]而随着电子商务的全球化发展,电商用户群体也在不断扩展,用户所使用的语种也越来越多。此时,对用户进行服务时,就需要进行准确的语种识别,才能进行后续的服务。用户在电商平台进行购物时,通常会输入若干关键词进行商品搜索。而关键词往往会存在诸如拼写错误、没有严格语序的不规范问题,以及,还有可能存在通用表达(即在不同的语种中都包含同一单词)、同形异义词(即同一单词在不同的语种中含义不同)等歧义问题。
[0020]例如,用户可能输入搜索词“basket”进行商品搜索。而“basket”在法语中是“篮球鞋”的意思,但是在英语中却是“篮筐”的意思,这就有可能造成对于语种识别不准确的问题。又例如,对于俄语用户而言,其输入的语调符号本身不发音,而用户在输入时经常会省略一些语调符号,这就容易造成在输入过程中的语种识别错误,导致后续的相关服务不能满足用户的实际需求。
[0021]基于此,本申请实施例提供一种输入方案,如图2所示,图2为本申请实施例所提供的一种输入方法的流程示意图,所述方法包括:
[0022]S201,获取用户的输入文本,根据所述用户的标识确定所述用户的偏好语种分布。
[0023]用户可以是任意语种的用户,在某些需要用户登陆的场景下(例如,在用户通过登陆电商平台进行购物的场景下),客户端或者服务端还可以获取得到该用户所对应的用户标识。
[0024]服务端可以从用户的历史信息中查询得到用户的偏好语种使用信息(包括对各语
种的使用频率、语种的使用地点、使用场景、使用概率等等),进而得到用户的偏好语种分布。偏好语种分布可以是具体的各语种的使用频率,也可以是各语种的使用概率的分布。
[0025]例如,服务端可以查询该用户在一定的窗口时间内(例如,180天)内的登陆平台时所主动选择的语种类别并进行统计,或者还可以基于用户在购买商品时所选择的语种类别进行统计语,从而得到该用户所使用的各语种的使用频率的分布情形。
[0026]在另一种实施方式中,服务端还可以预先建立用户语种偏好数据(例如以关系表或者键值对等形式保存用户语种偏好数据),用于保存各用户的各语种的使用信息。例如,服务端可以基于用户和其它方进行沟通时(包括诸如与商户或者客服进行沟通,或者在平台中发表文字评论)所采用的语种或者进行商品搜索时所采用的语种进行历史统计,从而得到用户所使用的各语种的使用频率,进而基于各语种的使用频率进行统计得到该用户的各语种的概率,并将使用频率和使用概率一起写入用户语种偏好数据中。
[0027]用户语种偏好数据可以是各种形式的,例如,可以是关系型数据表,或者是键值对等非关系型数据表。以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种输入方法,包括:获取用户的输入文本,根据所述用户的标识确定所述用户的偏好语种分布;采用预先训练的语种识别模型确定所述输入文本的语种的第一预测分布;根据所述第一预测分布和所述偏好语种分布,生成对所述输入文本的语种的第二预测分布;根据所述第二预测分布确定所述输入文本的预测语种。2.如权利要求1所述的方法,其中,所述根据所述用户的标识确定所述用户的偏好语种分布,包括:根据所述用户的标识获得用户语种偏好数据,所述用户语种偏好数据中包括以用户的标识为键和以不同语种的使用信息为值的键值对;从所述用户语种偏好数据中查询所述用户对不同语种的使用信息;根据所述用户对不同语种的使用信息确定所述用户的偏好语种分布。3.如权利要求1所述的方法,其中,根据所述第一预测分布和所述偏好语种分布,生成对所述输入文本的语种的第二预测分布,包括:根据所述偏好语种分布确定语种分布权重;根据语种分布权重与对应的语种的第一预测分布确定第二预测分布。4.如权利要求3所述的方法,其中,根据所述偏好语种分布确定对应的语种分布权重,包括:将所述偏好语种分布确定为语种分布权重;或者,获取用户的语种指示信息,根据所述语种指示信息确定偏好语种系数,根据所述偏好语种系数和所述偏好语种分布确定语种分布权重。5.如权利要求2所述的方法,还包括:根据所述第二预测分布调整所述用户语种偏好数据中该用户所对应的键值对的值。6.如权利要求5所述的方法,其中,根...

【专利技术属性】
技术研发人员:任星彰张海波骆卫华
申请(专利权)人:阿里巴巴新加坡控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1