【技术实现步骤摘要】
用户画像信息的处理方法、装置、设备和计算机存储介质
[0001]本公开涉及信息抽取
,尤其涉及一种用户画像信息的处理方法、装置、设备和计算机存储介质。
技术介绍
[0002]知识图谱是一种海量知识表征形式,表达了各类实体及其之间的各种语义关系,具有更为丰富的语义关系,更高的实体、概念覆盖率,以及较高的数据质量等优点,可以改善用户画像的数据不全、不准等问题,因此,基于知识图谱的用户画像越来越引起人们的关注。
[0003]相关技术中,在用户画像知识图谱的构建过程中,信息抽取是用户画像知识图谱的构建的关键技术,其可以从非结构化的用户画像数据文本中提取出实体并识别它们的语义之间的关系。
[0004]传统的实体以及它们之间的关系抽取的方法主要是基于传统的管道抽取方式,虽然传统管道抽取方式易于实现,而且各个模块的灵活性比较强,但至少存在如下缺点:
[0005](1)误差积累:实体抽取的错误会影响下一步关系抽取的性能。
[0006](2)实体冗余:由于先对抽取的实体进行两两配对,然后再进行关系分类,没 ...
【技术保护点】
【技术特征摘要】
1.一种用户画像信息的处理方法,其特征在于,包括:确定用户数据中的非结构化用户数据和结构化用户数据;通过ALBERT模型对所述非结构化用户数据进行实体抽取和标注,以生成所述非结构化用户数据的三元组信息;通过机器学习模型对所述结构化用户数据进行实体抽取和标注,以生成所述结构化用户数据的三元组信息;通过实体链接技术对所述非结构化用户数据的三元组信息和所述结构化用户数据的三元组信息进行融合处理;将融合处理后的三元组信息导入neo4j图数据库,以构建所述用户数据对应的用户画像知识图谱,其中,所述三元组信息包括用户实体数据、实体关系数据和实体标签数据。2.根据权利要求1所述的用户画像信息的处理方法,其特征在于,确定用户数据中的非结构化用户数据和结构化用户数据包括:获取所述用户数据中的多源异构数据;采用文本预处理技术对所述多源异构数据进行处理,以获得所述非结构化用户数据和所述结构化用户数据,所述文本预处理技术包括语音识别技术、光学字符识别技术、数据挖掘技术和机器学习技术中的至少一种。3.根据权利要求1所述的用户画像信息的处理方法,其特征在于,在确定用户数据中的非结构化用户数据和结构化用户数据前,还包括:采用brat工具对待训练的文本进行实体标注和关系标注;通过编码处理将标注后的文本的数据格式转换成所述ALBERT模型能够处理的数据格式;根据格式转换后的标注的文本获取上下文特征;通过语义增强技术对所述上下文特征进行处理,以获取文本样本;通过所述文本样本对所述ALBERT模型进行预训练。4.根据权利要求3所述的用户画像信息的处理方法,其特征在于,所述ALBERT模型包括多个全连接层,通过文本样本对所述ALBERT模型进行预训练包括:对所述文本样本进行软标签嵌入;将所述文本样本中第i个字符串的软标签嵌入放到两个相互独立的全连接层,得到所述第i个字符串的主体和客体;根据所述主体和所述客体之间的相关系数对所述ALBERT模型进行训练,至所述ALBERT模型的交叉熵损失函数达到最小值为止。5.根据权利要求4所述的用户画像信息的处理方法,其特征在于,通过文本样本对所述ALBERT模型进行预训练还包括:确定所述ALBERT模型的实体抽取损失函数;对所述ALBERT模型引入辅助句级分类预测任务;根据所述实体抽取损失函数、所述辅助句级分类预测任务和所述交叉熵损失函数构建合并损失函数;通过所述主体和所述客体之间的...
【专利技术属性】
技术研发人员:马稼明,林海,谭成,郭汉龙,葛正荣,黄少琪,张琰琳,于亚茹,姜齐,陈家烁,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。