【技术实现步骤摘要】
本专利技术涉及计算机数据处理领域,特别涉及一种基于用户生成内容的数据处理方法、设备、介质和程序产品。
技术介绍
1、用户会在互联网上发布很多的笔记,即用户生成内容(user generated content,ugc),来表达自己的观点或者兴趣。最为常见的,用户会跟其他用户分享自己的产品使用心得。在这些笔记中,会提到当前笔记所表达的主要内容是关于什么商品的,会出现有笔记的主品类信息。此时,需要构建出从笔记信息到商品类目的一个映射关系,来对当前笔记进行归类,进而对发布笔记的用户进行画像刻画。例如当前笔记是在描述一款女士长裤,那么就可以将其归类到服饰鞋包,女装精品,下衣,裤子这一商品类目中。
2、目前构建出从笔记信息到商品类目的一个映射关系的实体链接技术主要包括召回和排序。现有的召回主要是基于规则的方式去做召回,具有局限性,鲁棒性不够,只能按照固定方式去做召回。排序阶段则需要人工去标注的数据,训练排序模型,因此人工成本很大,并且针对新的领域,需要新标注数据,训练模型,可迁移性很差。如何增加召回的鲁棒性和排序的可迁移性是难点问题。
【技术保护点】
1.一种基于用户生成内容的数据处理方法,用于电子设备,其特征在于,包括:
2.根据权利要求1所述的基于用户生成内容的数据处理方法,其特征在于,所述抽取步骤中的所述品类词相对应的上下文包括所述品类词所在的句子、标题、话题及其任一种组合形式。
3.根据权利要求1所述的基于用户生成内容的数据处理方法,其特征在于,所述召回步骤中的所述第一召回是基于预定规则的至少一级召回。
4.根据权利要求3所述的基于用户生成内容的数据处理方法,其特征在于,所述至少一级召回包括:
5.根据权利要求1所述的基于用户生成内容的数据处理方法,其特征在于
...【技术特征摘要】
1.一种基于用户生成内容的数据处理方法,用于电子设备,其特征在于,包括:
2.根据权利要求1所述的基于用户生成内容的数据处理方法,其特征在于,所述抽取步骤中的所述品类词相对应的上下文包括所述品类词所在的句子、标题、话题及其任一种组合形式。
3.根据权利要求1所述的基于用户生成内容的数据处理方法,其特征在于,所述召回步骤中的所述第一召回是基于预定规则的至少一级召回。
4.根据权利要求3所述的基于用户生成内容的数据处理方法,其特征在于,所述至少一级召回包括:
5.根据权利要求1所述的基于用户生成内容的数据处理方法,其特征在于,所述召回步骤中的所述第二召回是基于token的向量召回,其中,token表示所述品类词的最小的语义单元。
6.根据权利要求5所述的基于用户生成内容的数据处理方法,其特征在于,基于所述上下文计算所述候选项的所述置信度包括,基于双塔模型计算所述候选项的所述置信度,所述双塔模型包括用户生成内容侧和商品类目侧,所述用户生成内容侧的输入包括所述上下文,所述商品类目侧的输入为所述商品数据库中...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。