【技术实现步骤摘要】
一种基于多目标融合的实体关系抽取方法
[0001]本专利技术涉及一种基于多目标融合的实体关系抽取方法,具体涉及一种基于深度学习特征提取模型的基于多目标融合的实体关系抽取方法,属于自然语言处理
技术介绍
[0002]在5G时代,社交APP的出现改变了人们的生活。社交APP系统成为现在最受欢迎的交友模式。
[0003]社交APP为用户提供陌生交友功能,用户在与陌生人的交流中包含大量信息。尽管社交APP可以满足用户需求,但是,绝大多数用户都同时使用多款社交APP或是同款社交APP拥有多个账号。以中国新闻为例,在新浪微博的账号名称为CCTV中国新闻,在微信公众号账号名称为央视新闻,对于权威性机构,因为有官方认证的存在,公众不会混淆。但是,对于个体用户,很难去辨别不同的社交APP上的两个账户的使用者之间的关联。
[0004]社交网络(social network)的出现,为广大网民提供了更加自由和宽广的表现舞台。社交网络的核心价值在于用户之间的信息交换,用户可以自由地创作内容并发布在一个或多个社交网络站点(s ...
【技术保护点】
【技术特征摘要】
1.一种基于多目标融合的实体关系抽取方法,其特征在于,包括以下步骤:步骤1:基于深度学习特征抽取模型,构建社交APP的特定用户画像,具体如下:步骤1.1:从已有的社交APP的数据仓库中,获取包含特定用户信息的实体关系,其中,特定用户信息包括用户聊天信息、动态发布;实体关系构成了该用户画像的分片描述,用符号source表示;步骤1.2:对抽取的source进行筛选,选取与特定用户的关联路径数大于3的前N个实体关系,作为用户画像关键词基础词集,并用符号Portrait_map表示;步骤1.3:在LSTM的emmbedding layer层,将训练语料库中source的中文信息,转化为字向量,获得输入的embedding;步骤1.4:将embedding输入到Bi
‑
LSTM层,进行特征提取,得到序列的特征表征logits;此处,引入双向LSTM层作为特征提取工具;步骤1.5:对特征表征logits进行解码,得到标注序列;利用条件随机场CRF作为解码工具,将标注序列输入到解码的CRF层,获得每个字的序列;经过上述操作,得到社交APP特定用户画像实体关系词集Keyword;步骤1.6:根据用户画像实体关系词集Keyword在语料库中搜索匹配;步骤2:对用户画像数据库中的数据进行预处理和特征提取;步骤2.1:对用户画像数据库中的数据进行预处理;步骤2.1.1:从用户画像数据库中,获取包含特定用户信息的实体关系,实体关系构成了该用户画像数据集,用符号source_mul表示;步骤2.1.2:根据用户画像实体关系词集Keyword来匹配source_mul数据集;步骤2.1.3:根据目标匹配程度划分构建匹配用户库AllUse;用户库AllUser包括不同社交APP中的用户的实体关系,每个用户库包括某个社交APP中的某个用户的实体及实体关系,记为User;每个社交APP库包括该APP中爬取的用户数据,记为App;不同的社交App库构成了整个用户库AllUser;步骤2.2:对用户画像数据库中的每一条数据进行实体关系抽取;首...
【专利技术属性】
技术研发人员:苏岩,毛煜,朱一凡,祝永贺,
申请(专利权)人:北京半人科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。