一种基于多目标融合的实体关系抽取方法技术

技术编号:31086864 阅读:20 留言:0更新日期:2021-12-01 12:41
本发明专利技术涉及一种基于多目标融合的实体关系抽取方法,属于自然语言处理技术领域,旨在有效解决互联网中由于社交APP不同消息隔阂导致的用户认知不一、用户画像发现和匹配准确率低等技术问题。本方法结合深度学习特征提取模型和CRF解码,提取不同社交APP中的聊天、动态记录等。通过构建记录聚合方法,实现对不同社交APP之间用户的发现与识别。本方法能够自动分析和识别互联网环境中不同社交APP用户画像,根据用户画像相似程度将不同社交APP账号关联到同一用户。相较于传统的用户发现方法,本方法提高了不同APP中用户识别的准确率,实现了较为精准的基于多目标融合的实体关系抽取方法。取方法。取方法。

【技术实现步骤摘要】
一种基于多目标融合的实体关系抽取方法


[0001]本专利技术涉及一种基于多目标融合的实体关系抽取方法,具体涉及一种基于深度学习特征提取模型的基于多目标融合的实体关系抽取方法,属于自然语言处理


技术介绍

[0002]在5G时代,社交APP的出现改变了人们的生活。社交APP系统成为现在最受欢迎的交友模式。
[0003]社交APP为用户提供陌生交友功能,用户在与陌生人的交流中包含大量信息。尽管社交APP可以满足用户需求,但是,绝大多数用户都同时使用多款社交APP或是同款社交APP拥有多个账号。以中国新闻为例,在新浪微博的账号名称为CCTV中国新闻,在微信公众号账号名称为央视新闻,对于权威性机构,因为有官方认证的存在,公众不会混淆。但是,对于个体用户,很难去辨别不同的社交APP上的两个账户的使用者之间的关联。
[0004]社交网络(social network)的出现,为广大网民提供了更加自由和宽广的表现舞台。社交网络的核心价值在于用户之间的信息交换,用户可以自由地创作内容并发布在一个或多个社交网络站点(social network sites,SNS),并经由它的观众通过转发等方式进行传播。随着发展网络社交的效果越来越接近于传统社交效果,真正全面认识了解一个人,需要从网络中的多个维度进行分析认知。
[0005]另一方面,社交网络的实时性决定了其公众舆情方面的价值。社交网络中的舆情具有自由性、互动性、隐匿性等特性。由于社交网络是对所有人开放的,隐匿性又一定程度上让用户更真实的表达自己的观点,因此,社交网络中的舆情含有更高价值。此外,命名实体识别作为自然语言处理中的基本任务之一,可以从输入的文本中抽取出文本中具有特定意义或指代性的实体,获取到文本中某些实体之间的关系,进而根据用户要求识别出更多类别的实体,可以有效的帮助后续的文本语义理解。
[0006]学术界认为,命名实体识别(Named Entity Recognition,,简称NER)是一个已经解决的问题,因为在一定的文本类型中已经取得了非常好的实体抽取效果。但是,与其它信息领域相比,用来实体命名抽取的语料数量不足,容易产生过拟合问题。此外,命名实体抽取更重视召回率,但在信息检索领域准确率更为重要。
[0007]虽然目前的命名实体识别模型较为成熟,然而,这些成熟的模型仅仅还只是召回率很高的模型,并没有进行充分利用,从而导致了NER模型的高完成度不能转化为社会生产力。对于社交APP来说,不同APP的数据格式不同,不同笼统的统一收集信息,这使得NER的初始建模有一定困难。不仅如此,当前,尚未有公认的针对不同社交APP的信息公开样本,从而使得原始信息的采集更加困难。另一方面,由于命名实体关系抽取的自由性,抽取的实体关系不一定是我们需要的实体或关系,最终也会导致后续用户画像匹配处理分析失败。

技术实现思路

[0008]本专利技术的目的是针对互联网中的网络舆论等相关互联网言论记录离散分布,采用
现有的互联网舆论控制机制识别时,会产生个人描述缺失、准确度过低等缺陷,为有效解决互联网中由于社交APP不同消息隔阂导致的用户认知不一、用户画像发现和匹配准确率低等技术问题,提出一种新的基于多目标融合的实体关系抽取方法。
[0009]本专利技术的创新点在于:采取基于多目标融合的命名实体关系抽取方法,结合深度学习特征提取模型和CRF解码,提取不同社交APP中的聊天、动态记录等。通过构建记录聚合方法,实现对不同社交APP之间用户的发现与识别。本方法能够自动分析和识别互联网环境中不同社交APP用户画像,根据用户画像相似程度将不同社交APP账号关联到同一用户。
[0010]本专利技术的目的是通过下述技术方案实现的。
[0011]一种基于多目标融合的实体关系抽取方法。首先,基于深度学习特征抽取模型,从已有的社交APP中提取用户画像。然后,基于深度学习特征抽取模型的用户画像,对其它社交APP聊天信息进行匹配识别。
[0012]本专利技术包括以下步骤:
[0013]步骤1:构建社交APP的特定用户画像。
[0014]具体地,步骤1可以采用以下方法实现:
[0015]步骤1.1:从已有的社交APP的数据仓库中,获取包含特定用户信息的实体关系。其中,特定用户信息包括用户聊天信息、动态发布等。
[0016]实体关系构成了该用户画像的分片描述,用符号source表示。
[0017]步骤1.2:对抽取的source进行筛选,选取与特定用户的关联路径数大于3 的前N个实体关系,作为用户画像关键词基础词集,并用符号Portrait_map表示。
[0018]步骤1.3:在LSTM的emmbedding layer层,将训练语料库中source的中文信息,转化为字向量,获得输入的embedding。
[0019]步骤1.4:将embedding输入到Bi

LSTM层,进行特征提取(编码过程),得到序列的特征表征logits。
[0020]此处,引入双向LSTM层(LSTM,Long Short

Term Memory,长短期记忆网络),作为特征提取工具。
[0021]目前,对RNN模型的训练,主要基于BPTT算法(Back

Propagation ThroughTime)或RTRL算法(Real Time Recurrent Learning)。通过这两种方式对RNN 训练,会使得误差在序列内传播时出现梯度消失或者爆炸的情况。相比之下,作为RNN的一种特殊类型的LSTM拥有长序列特征提取能力。当出现梯度消失的情况时,训练时的权重就会出现摇摆和震荡,使得训练耗费大量时间,甚至停滞不利于快速形成用户画像。而双向LSTM在提取某个时刻特征时,能够利用该时刻之后的序列的信息,显然能够提高模型的特征提取能力。在LSTM中,使用常量作为传递不同时刻相互连接的RNN单元的误差,从而解决梯度消失或者爆炸的问题。
[0022]步骤1.5:对特征表征logits进行解码,得到标注序列。利用CRF(条件随机场,Conditional Random Fields,CRF)作为解码工具,将标注序列输入到解码的CRF层,获得每个字的序列。
[0023]中文输入经过双向LSTM层的编码之后,需要能够利用编码到的丰富的信息,将其转化成NER标注序列。通过观察序列,预测隐藏状态序列,CRF可以很好的完成这项工作。对比与HMM,CRF可以定义数量更多,种类更丰富的特征函数,着眼于整个句子定义更具有全局
性的特征函数。CRF可以使用任意的权重,每个特征函数的权重可以是任意值。
[0024]经过上述操作,得到社交APP特定用户画像实体关系词集Keyword。
[0025]步骤1.6:根据用户画像实体关系词集Keyword在语料库中搜索匹配。具体为:使用词集Keyword作为检索关键词,使用爬虫程序按照预先设定的时间间隔,动态采集其它社交AP本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多目标融合的实体关系抽取方法,其特征在于,包括以下步骤:步骤1:基于深度学习特征抽取模型,构建社交APP的特定用户画像,具体如下:步骤1.1:从已有的社交APP的数据仓库中,获取包含特定用户信息的实体关系,其中,特定用户信息包括用户聊天信息、动态发布;实体关系构成了该用户画像的分片描述,用符号source表示;步骤1.2:对抽取的source进行筛选,选取与特定用户的关联路径数大于3的前N个实体关系,作为用户画像关键词基础词集,并用符号Portrait_map表示;步骤1.3:在LSTM的emmbedding layer层,将训练语料库中source的中文信息,转化为字向量,获得输入的embedding;步骤1.4:将embedding输入到Bi

LSTM层,进行特征提取,得到序列的特征表征logits;此处,引入双向LSTM层作为特征提取工具;步骤1.5:对特征表征logits进行解码,得到标注序列;利用条件随机场CRF作为解码工具,将标注序列输入到解码的CRF层,获得每个字的序列;经过上述操作,得到社交APP特定用户画像实体关系词集Keyword;步骤1.6:根据用户画像实体关系词集Keyword在语料库中搜索匹配;步骤2:对用户画像数据库中的数据进行预处理和特征提取;步骤2.1:对用户画像数据库中的数据进行预处理;步骤2.1.1:从用户画像数据库中,获取包含特定用户信息的实体关系,实体关系构成了该用户画像数据集,用符号source_mul表示;步骤2.1.2:根据用户画像实体关系词集Keyword来匹配source_mul数据集;步骤2.1.3:根据目标匹配程度划分构建匹配用户库AllUse;用户库AllUser包括不同社交APP中的用户的实体关系,每个用户库包括某个社交APP中的某个用户的实体及实体关系,记为User;每个社交APP库包括该APP中爬取的用户数据,记为App;不同的社交App库构成了整个用户库AllUser;步骤2.2:对用户画像数据库中的每一条数据进行实体关系抽取;首...

【专利技术属性】
技术研发人员:苏岩毛煜朱一凡祝永贺
申请(专利权)人:北京半人科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1