本公开提供了一种用户画像信息的处理方法、装置、设备和计算机存储介质,涉及信息抽取技术领域。其中,处理方法包括:确定用户数据中的非结构化用户数据和结构化用户数据;通过ALBERT模型对非结构化用户数据进行实体抽取和标注,以生成非结构化用户数据的三元组信息;通过机器学习模型对结构化用户数据进行实体抽取和标注,以生成结构化用户数据的三元组信息;通过实体链接技术对非结构化用户数据的三元组信息和结构化用户数据的三元组信息进行融合处理;将融合处理后的三元组信息导入neo4j图数据库,以构建用户数据对应的用户画像知识图谱。通过本公开的技术方案,生成的用户画像知识图谱比较全面,精确率高,模型鲁棒性强,提高了用户画像的打标效率。提高了用户画像的打标效率。提高了用户画像的打标效率。
【技术实现步骤摘要】
用户画像信息的处理方法、装置、设备和计算机存储介质
[0001]本公开涉及信息抽取
,尤其涉及一种用户画像信息的处理方法、装置、设备和计算机存储介质。
技术介绍
[0002]知识图谱是一种海量知识表征形式,表达了各类实体及其之间的各种语义关系,具有更为丰富的语义关系,更高的实体、概念覆盖率,以及较高的数据质量等优点,可以改善用户画像的数据不全、不准等问题,因此,基于知识图谱的用户画像越来越引起人们的关注。
[0003]相关技术中,在用户画像知识图谱的构建过程中,信息抽取是用户画像知识图谱的构建的关键技术,其可以从非结构化的用户画像数据文本中提取出实体并识别它们的语义之间的关系。
[0004]传统的实体以及它们之间的关系抽取的方法主要是基于传统的管道抽取方式,虽然传统管道抽取方式易于实现,而且各个模块的灵活性比较强,但至少存在如下缺点:
[0005](1)误差积累:实体抽取的错误会影响下一步关系抽取的性能。
[0006](2)实体冗余:由于先对抽取的实体进行两两配对,然后再进行关系分类,没有关系的候选实体对所带来的冗余信息,会提升错误率、增加计算复杂度。
[0007](3)交互缺失:忽略了这两个实体之间的内在联系和依赖关系。
[0008](4)虽然实现了中文的端到端的实体关系联合抽取,但是没有考虑模型实体的多关系性,训练模型的效率和准确率也有待提高。
[0009](5)在实际模型应用中,机器学习方法对数据样本非常敏感,导致训练模型不是很稳定,泛化能力不强,容易受样本微小波动的影响。
[0010]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
[0011]本公开的目的在于提供一种用户画像信息的处理方法、装置、设备和计算机存储介质,至少在一定程度上克服相关技术中提取实体的冗余信息繁多的问题。
[0012]本公开的其他特性和优点将通过后续的详细描述变得显然,或部分地通过本公开的实践而习得。
[0013]根据本公开的一个方面,提供一种用户画像信息的处理方法,包括:确定用户数据中的非结构化用户数据和结构化用户数据;通过ALBERT模型对非结构化用户数据进行实体抽取和标注,以生成非结构化用户数据的三元组信息;通过机器学习模型对结构化用户数据进行实体抽取和标注,以生成结构化用户数据的三元组信息;通过实体链接技术对非结构化用户数据的三元组信息和结构化用户数据的三元组信息进行融合处理;将融合处理后的三元组信息导入neo4j图数据库,以构建用户数据对应的用户画像知识图谱,其中,三元
组信息包括用户实体数据、实体关系数据和实体标签数据。
[0014]在本公开的一个实施例中,确定用户数据中的非结构化用户数据和结构化用户数据包括:获取用户数据中的多源异构数据;采用文本预处理技术对多源异构数据进行处理,以获得非结构化用户数据和结构化用户数据,文本预处理技术包括语音识别技术、光学字符识别技术、数据挖掘技术和机器学习技术中的至少一种。
[0015]在本公开的一个实施例中,在确定用户数据中的非结构化用户数据和结构化用户数据前,还包括:采用brat工具对待训练的文本进行实体标注和关系标注;通过编码处理将标注后的文本的数据格式转换成ALBERT模型能够处理的数据格式;根据格式转换后的标注的文本获取上下文特征;通过语义增强技术对上下文特征进行处理,以获取文本样本;通过文本样本对ALBERT模型进行预训练。
[0016]在本公开的一个实施例中,ALBERT模型包括多个全连接层,通过文本样本对ALBERT模型进行预训练包括:对文本样本进行软标签嵌入;将文本样本中第i个字符串的软标签嵌入放到两个相互独立的全连接层,得到第i个字符串的主体和客体;根据主体和客体之间的相关系数对ALBERT模型进行训练,至ALBERT模型的交叉熵损失函数达到最小值为止。
[0017]在本公开的一个实施例中,通过文本样本对ALBERT模型进行预训练还包括:确定ALBERT模型的实体抽取损失函数;对ALBERT模型引入辅助句级分类预测任务;根据实体抽取损失函数、辅助句级分类预测任务和交叉熵损失函数构建合并损失函数;通过主体和客体之间的相关系数对ALBERT模型进行训练,至合并损失函数达到最小值为止。
[0018]在本公开的一个实施例中,还包括:获取训练样本;根据训练模型的参数、训练模型的损失函数和训练样本确定训练样本的扰动;通过加入扰动的训练样本对训练模型进行对抗训练,训练模型为ALBERT模型或机器学习模型。
[0019]在本公开的一个实施例中,ALBERT模型包括条件随机场层和Multi
‑
Sigmoid层,通过ALBERT模型对非结构化用户数据进行实体抽取和标注,以生成非结构化用户数据的三元组信息包括:获取条件随机场层对非结构化用户数据中的语句提取的实体;采用BIO标注技术对条件随机场层输出的实体进行识别,以输出实体识别结果;对实体识别结果进行软标签嵌入;通过Multi
‑
Sigmoid层对软标签嵌入的实体识别结果进行多头关系选择。
[0020]根据本公开的另一个方面,提供一种用户画像信息的处理装置,包括:划分模块,用于确定用户数据中的非结构化用户数据和结构化用户数据;第一抽取模块,用于通过ALBERT模型对非结构化用户数据进行实体抽取和标注,以生成非结构化用户数据的三元组信息;第二抽取模块,用于通过机器学习模型对结构化用户数据进行实体抽取和标注,以生成结构化用户数据的三元组信息;融合模块,用于通过实体链接技术对非结构化用户数据的三元组信息和结构化用户数据的三元组信息进行融合处理;导入模块,用于将融合处理后的三元组信息导入neo4j图数据库,以构建用户数据对应的用户画像知识图谱,其中,三元组信息包括用户实体数据、实体关系数据和实体标签数据。
[0021]根据本公开的再一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的用户画像信息的处理方法。
[0022]根据本公开的又一个方面,提供一种计算机可读存储介质,其上存储有计算机程
序,计算机程序被处理器执行时实现上述任意一项的用户画像信息的处理方法。
[0023]本公开的实施例所提供的用户画像信息的处理方案,通过ALBERT模型对所述非结构化用户数据进行实体抽取和标注,以生成所述非结构化用户数据的三元组信息,以一种轻量级的方式抽取了非结构化用户数据的实体,并进行了标注,减少了抽取实体的冗余信息,降低了模式的数据处理压力。
[0024]进一步地,非结构化用户数据的实体抽取采用BIO标注和CRF解码,关系抽取采用Multi
‑
Sigmoid层进行多头关系选择,解决了一个实体可以对应多个关系的问题,进一步地减少了抽取实体的冗余关系。...
【技术保护点】
【技术特征摘要】
1.一种用户画像信息的处理方法,其特征在于,包括:确定用户数据中的非结构化用户数据和结构化用户数据;通过ALBERT模型对所述非结构化用户数据进行实体抽取和标注,以生成所述非结构化用户数据的三元组信息;通过机器学习模型对所述结构化用户数据进行实体抽取和标注,以生成所述结构化用户数据的三元组信息;通过实体链接技术对所述非结构化用户数据的三元组信息和所述结构化用户数据的三元组信息进行融合处理;将融合处理后的三元组信息导入neo4j图数据库,以构建所述用户数据对应的用户画像知识图谱,其中,所述三元组信息包括用户实体数据、实体关系数据和实体标签数据。2.根据权利要求1所述的用户画像信息的处理方法,其特征在于,确定用户数据中的非结构化用户数据和结构化用户数据包括:获取所述用户数据中的多源异构数据;采用文本预处理技术对所述多源异构数据进行处理,以获得所述非结构化用户数据和所述结构化用户数据,所述文本预处理技术包括语音识别技术、光学字符识别技术、数据挖掘技术和机器学习技术中的至少一种。3.根据权利要求1所述的用户画像信息的处理方法,其特征在于,在确定用户数据中的非结构化用户数据和结构化用户数据前,还包括:采用brat工具对待训练的文本进行实体标注和关系标注;通过编码处理将标注后的文本的数据格式转换成所述ALBERT模型能够处理的数据格式;根据格式转换后的标注的文本获取上下文特征;通过语义增强技术对所述上下文特征进行处理,以获取文本样本;通过所述文本样本对所述ALBERT模型进行预训练。4.根据权利要求3所述的用户画像信息的处理方法,其特征在于,所述ALBERT模型包括多个全连接层,通过文本样本对所述ALBERT模型进行预训练包括:对所述文本样本进行软标签嵌入;将所述文本样本中第i个字符串的软标签嵌入放到两个相互独立的全连接层,得到所述第i个字符串的主体和客体;根据所述主体和所述客体之间的相关系数对所述ALBERT模型进行训练,至所述ALBERT模型的交叉熵损失函数达到最小值为止。5.根据权利要求4所述的用户画像信息的处理方法,其特征在于,通过文本样本对所述ALBERT模型进行预训练还包括:确定所述ALBERT模型的实体抽取损失函数;对所述ALBERT模型引入辅助句级分类预测任务;根据所述实体抽取损失函数、所述辅助句级分类预测任务和所述交叉熵损失函数构建合并损失函数;通过所述主体和所述客体之间的...
【专利技术属性】
技术研发人员:马稼明,林海,谭成,郭汉龙,葛正荣,黄少琪,张琰琳,于亚茹,姜齐,陈家烁,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。