汉藏语多方言多模态的资源推荐方法和装置制造方法及图纸

技术编号:37547076 阅读:12 留言:0更新日期:2023-05-12 16:21
本申请涉及一种汉藏语多方言多模态的资源推荐方法和装置,所述方法包括如下步骤:识别出每一条内容资源所属的语种/方言类型,根据识别结果给所述内容资源打上相应的资源

【技术实现步骤摘要】
汉藏语多方言多模态的资源推荐方法和装置


[0001]本申请涉及推荐
,具体涉及一种汉藏语多方言多模态的资源推荐方法和装置。

技术介绍

[0002]我国西藏地区幅员辽阔,各地方言相差很大。藏语分为卫藏、康、安多三种方言,同时西藏也在大力推广汉语普通话,所以西藏当地居民养成了藏语方言和汉语同时使用的日常习惯。同时,藏语各方言在文字写法上基本相同,但口语发音上差异较大,各方言之间的人群往往无法采用藏语进行流畅交流,需要使用汉语。
[0003]市面上基于推荐引擎为主打造的信息流内容推荐产品,例如各种社交平台,主要采用汉语提供内容推荐服务,还没有为西藏当地居民量身打造的内容推荐产品。
[0004]例如,藏族安多方言的同胞采用安多方言录制的短视频,如果通过推荐产品推送给卫藏方言的藏族人群,虽然卫藏方言的同胞可以通过阅读字幕文字或听取语音转录合成后的卫藏语音结果进行理解,但阅读字幕会消耗用户的时间精力,语音合成目前的技术水平无法完美的还原音色,这些方法都不能带来很好的用户体验。

技术实现思路

[0005]为至少在一定程度上克服相关技术中存在的多方言/语种场景下资源内容匹配推荐效果较差的问题,本申请提供一种汉藏语多方言多模态的资源推荐方法和装置。
[0006]根据本申请实施例的第一方面,提供一种汉藏语多方言多模态的资源推荐方法,包括如下步骤:识别出每一条内容资源所属的语种/方言类型,根据识别结果给所述内容资源打上相应的资源

语言类型标签;提取用户的语言类型和兴趣点;从各种类型的内容资源中筛选出第一内容资源,将所述第一内容资源在对应的目标人群内进行冷启试探;根据冷启试探结果从所述第一内容资源中筛选出第二内容资源,将所述第二内容资源在多语言人群间进行传播扩散。
[0007]进一步地,所述资源

语言类型标签的种类包括:图文

汉语、图文

藏语、短视频

汉语、短视频

卫藏方言、短视频

康方言和/或短视频

安多方言。
[0008]进一步地,识别出每一条内容资源所属的语种/方言类型,包括如下步骤:调用现有通用的藏汉多模态机器翻译技术接口,将每条内容资源识别出所属的语种/方言类型;将多模态的内容资源统一翻译成汉语文字存储入内容模型;其中,多模态的内容资源包括:藏语图文文字、藏语短视频方言语音和/或藏语短视频字幕。
[0009]进一步地,从各种类型的内容资源中筛选出第一内容资源,包括如下步骤:针对每一种类型的内容资源,通过先验质量资源筛选,筛选出第一内容资源。
[0010]进一步地,将所述第一内容资源在对应的目标人群内进行冷启试探,包括如下步骤:获取预设的多语种/方言对应关系;根据第一内容资源的语言类型确定对应的目标语言人群;将第一内容资源推送给目标语言人群,进行冷启试探。
[0011]进一步地,预设的多语种/方言对应关系包括:图文

汉语类型的内容资源对应汉语用户、卫藏方言用户、康方言用户和安多方言用户;图文

藏语类型的内容资源对应卫藏方言用户、康方言用户和安多方言用户;短视频

汉语类型的内容资源对应汉语用户、卫藏方言用户、康方言用户和安多方言用户;短视频

卫藏方言类型的内容资源对应卫藏方言用户;短视频

康方言类型的内容资源对应康方言用户;短视频

安多方言类型的内容资源对应安多方言用户。
[0012]进一步地,根据冷启试探结果从所述第一内容资源中筛选出第二内容资源,包括如下步骤:根据冷启试探的结果进行后验互动资源筛选;筛选出后验互动数据指标较高的内容资源,作为第二内容资源。
[0013]进一步地,将所述第二内容资源在多语言人群间进行传播扩散,包括如下步骤:基于相似人群扩散的方法,确定多语言人群;将所述第二内容资源在多语言人群间进行传播扩散。
[0014]进一步地,相似人群扩散的方法包括如下步骤:将传播扩散期资源的最早期点击用户写入redis;读取redis获取传播扩散期nid的历史点击用户列表,得到多个种子用户;其中nid代表内容资源的唯一编号;请求gcf

user向量服务接口,得到多个种子用户的向量;gcf

user向量是指业界通用的基于图模型的协同过滤(Graph

based Collaborative Filtering)所生成的用户向量。
[0015]对多个种子用户向量采用平均池化方法,得到nid向量,构建资源向量库;对于待推荐的目标用户,请求gcf

user向量服务接口得到目标用户的user向量;目标用户的user向量与资源向量库中种子用户人群的nid向量计算余弦相似度,得到目标用户与资源种子用户人群的相似度score值;系统将score值高的对应资源推荐给目标用户。
[0016]进一步地,本申请的方法还包括如下步骤:根据相似人群扩散后的互动结果,进行后验互动资源筛选;将筛选出的内容资源在全体用户范围内进行提权展示。
[0017]根据本申请实施例的第二方面,提供一种多方言多模态的资源推荐装置,包括:
识别模块,用于识别出每一条内容资源所属的语种/方言类型,根据识别结果给所述内容资源打上相应的资源

语言类型标签;提取模块,用于提取用户的语言类型和兴趣点;冷启试探模块,用于从各种类型的内容资源中筛选出第一内容资源,将所述第一内容资源在对应的目标人群内进行冷启试探;传播扩散模块,用于根据冷启试探结果从所述第一内容资源中筛选出第二内容资源,将所述第二内容资源在多语言人群间进行传播扩散。
[0018]本申请的实施例提供的技术方案具备以下有益效果:本申请的方案基于机器翻译与相似人群扩散,能够实现多语种/方言的匹配推荐,达到了特定语言资源在特定语言人群中进行扩散的目标,在精准性和泛化性之间实现个性化均衡。
[0019]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0020]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0021]图1是本专利技术实施例示出的一种西藏地区不用语言群体的内容资源需求示意图。
[0022]图2是本专利技术实施例示出的一种推荐产品技术全景框架图。
[0023]图3是本专利技术实施例示出的一种多方言多模态的资源推荐方法的流程图。
[0024]图4是本专利技术实施例示出的一种Lookalike 算法逻辑示意图。
[0025]图5是本专利技术实施例示出的一种基于藏汉机器翻译与人群扩散的多方言多模态推荐技术流程图。
[0026]图6是本专利技术实施例示出的一种多方言多模态的资源推荐装置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种汉藏语多方言多模态的资源推荐方法,其特征在于,包括如下步骤:识别出每一条内容资源所属的语种/方言类型,根据识别结果给所述内容资源打上相应的资源

语言类型标签;提取用户的语言类型和兴趣点;从各种类型的内容资源中筛选出第一内容资源,将所述第一内容资源在对应的目标人群内进行冷启试探;根据冷启试探结果从所述第一内容资源中筛选出第二内容资源,将所述第二内容资源在多语言人群间进行传播扩散。2.根据权利要求1所述的汉藏语多方言多模态的资源推荐方法,其特征在于,所述资源

语言类型标签的种类包括:图文

汉语、图文

藏语、短视频

汉语、短视频

卫藏方言、短视频

康方言和/或短视频

安多方言。3.根据权利要求2所述的汉藏语多方言多模态的资源推荐方法,其特征在于,识别出每一条内容资源所属的语种/方言类型,包括如下步骤:调用现有通用的藏汉多模态机器翻译技术接口,将每条内容资源识别出所属的语种/方言类型;将多模态的内容资源统一翻译成汉语文字存储入内容模型;其中,多模态的内容资源包括:藏语图文文字、藏语短视频方言语音和/或藏语短视频字幕。4.根据权利要求1所述的汉藏语多方言多模态的资源推荐方法,其特征在于,从各种类型的内容资源中筛选出第一内容资源,包括如下步骤:针对每一种类型的内容资源,通过先验质量资源筛选,筛选出第一内容资源。5.根据权利要求1

4任一项所述的汉藏语多方言多模态的资源推荐方法,其特征在于,将所述第一内容资源在对应的目标人群内进行冷启试探,包括如下步骤:获取预设的多语种/方言对应关系;根据第一内容资源的语言类型确定对应的目标语言人群;将第一内容资源推送给目标语言人群,进行冷启试探。6.根据权利要求5所述的汉藏语多方言多模态的资源推荐方法,其特征在于,预设的多语种/方言对应关系包括:图文

汉语类型的内容资源对应汉语用户、卫藏方言用户、康方言用户和安多方言用户;图文

藏语类型的内容资源对应卫藏方言用户、康方言用户和安多方言用户;短视频

...

【专利技术属性】
技术研发人员:于满泉莫倩王升张传文贾承斌朱若曦央金拉姆
申请(专利权)人:网智天元科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1