一种基于知识图谱和置信度的实体形象分析方法及系统技术方案

技术编号:33646901 阅读:71 留言:0更新日期:2022-06-02 20:23
本发明专利技术提出一种基于知识图谱和置信度的实体形象分析方法及系统,涉及知识图谱的技术领域,首先在明确预关注的实体及实体形象的预关注维度后,在代表性文档中标注实体和实体关系,通过引入Bert中文预训练模型并训练,实现命名实体识别和关系抽取,从而自动提取更多的知识,构建初步的知识图谱。经过命名实体识别和关系抽取之后,利用实体置信度和关系置信度来衡量知识图谱的可信度,进行知识的初步过滤,保证了实体形象分析的高效性,为进一步筛选出更具有代表性的实体形象标签,引入权重TF

【技术实现步骤摘要】
一种基于知识图谱和置信度的实体形象分析方法及系统


[0001]本专利技术涉及知识图谱的
,更具体地,涉及一种基于知识图谱和置信度的实体形象分析方法及系统。

技术介绍

[0002]随着网络时代的蓬勃发展,大众在社交等公共平台留下了大量的内容和数据印迹,这些内容和数据印迹涉及到对各种实体比如品牌等的认知和评价,即实体形象;实体形象是各个领域打造和优化的对象,对品牌、企业、明星等实体来说有着极为重要的价值,通过对这些数据进行挖掘可以指导实体营销方的精准营销活动。
[0003]实体形象分析无论是对于大众想要快速了解一个实体,或者企业管理者、品牌营销者管理形象而言均非常重要,目前,实体形象分析主要通过问卷方案,人工收集的方式实现,然而,花费大量的时间进行人工收集标签词,效率低下。
[0004]随着自然语言处理技术的发展,知识图谱技术应运而生。知识图谱本质上是一种语义网络,是一种基于图的数据结构,由节点和边组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,实体指的可以是现实世界中的事物,比如人、地名、企业、品牌等;关系本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱和置信度的实体形象分析方法,其特征在于,所述方法包括以下步骤:S1.确认预关注的实体及实体形象的预关注维度,根据关键词码表收集以预关注实体为核心的代表性文档;S2.从文档中人工识别实体、实体类型以及实体关系,并标注文档中预关注的实体和实体关系,得到标注数据,将标注数据划分为标注训练数据集和标注测试数据集;S3.引入Bert中文预训练通用模型,对Bert中文预训练通用模型添加下游任务,构成命名实体识别模型和关系抽取模型,并利用标注训练数据集训练,利用标注测试数据集测试,得到训练好的Bert大规模中文预训练模型,以进行命名实体识别和关系抽取,实体和关系构成知识,形成知识图谱的第一部分;S4.根据实体和关系,计算知识置信度,然后基于知识置信度计算关系置信度及实体置信度,进行知识的融合,并存入知识图谱,形成知识图谱,根据关系置信度及实体置信度过滤实体关联的标签词;S5.确定每个实体的权重TF

IDF统计量,根据每个实体的权重TF

IDF统计量过滤实体关联的标签词,得到最终的实体形象标签。2.根据权利要求1所述的基于知识图谱和置信度的实体形象分析方法,其特征在于,步骤S1中所述的预关注的实体包括企业、品牌及明星,实体形象的预关注维度包括社会维度、视觉维度、个人维度、社会口碑维度。3.根据权利要求2所述的基于知识图谱和置信度的实体形象分析方法,其特征在于,在步骤S2中,标注数据为人工标注的实体和实体关系组成的三元组知识,在实体和实体关系组成的三元组知识中,实体分为头实体和尾实体,三元组知识表达为“头实体

>实体关系

>尾实体”。4.根据权利要求3所述的基于知识图谱和置信度的实体形象分析方法,其特征在于,在步骤S3中,利用标注训练数据集训练命名实体识别模型和关系抽取模型,利用标注测试数据集测试命名实体识别模型和关系抽取模型后,得到训练好的大规模中文预训练模型,引入新数据作为预测数据输入Bert大规模中文预训练模型,Bert大规模中文预训练模型输出预测结果,根据预测结果和人工标注的实体和实体关系组成的三元组知识结果,统计Bert大规模中文预训练模型的准确率和召回率,设定模型评价阈值,在Bert大规模中文预训练模型的准确率和召回率低于模型评价阈值时,返回查看人工标注的实体和实体关系组成的三元组知识准备工作、标注数据量的准备工作出错情况,重新训练命名实体识别模型和关系抽取模型;在准确率和召回率不低于模型评价阈值时,训练完成,得到训练好的Bert大规模中文预训练模型。5.根据权利要求3所述的基于知识图谱和置信度的实体形象分析方法,其特征在于,步骤S4所述的根据实体和关系,计算知识置信度的表达式为:confidence=A*距离系数/B其中,confidence表示知识置信度;B表示设置的最大距离;A表示置信度上限,由于关系置信度由知识本身和声量构成,将知识置信度的范围定义为0~70;距离系数满足:距离系数=|B

C|其中,C表示实体和实体关系组成的三元组知识中头实体与尾实体的距离,在C>B时,
距离系数为0;同一条实体和实体关系组成的三元组知识若出现多次,则存在多个知识置信度,取多个知识置信度中最大的作为这条知识的知识置信度;在步骤S4中所述的关系置信度及实体置信度的计算基于知识置信度实现,其中,关系置信度的计算表达式为:E=min(100,round(confidence_prob+confidence_vol))其中,confidence_prob表示知识置信度贡献部分;confidence_vol表示声量贡献部分;round()表示取整操作,关系置信度的取值范围为0~100;声量贡献部分的计算表达式为:confidence_vol=声量权重系数*(ln(该知识的新声量和库中该知识声量的总声量)*10)其中,该知识的新声量和库中该知识声量的总声量均已知,声量权重系数取0.3;知识置信度贡献部分的计算表达式为:confidence_prob=知识置信度权重系数*confidence*声量系数其中,confidence_prob表示知识置信度贡献部分,与知识图谱中的关系置信度相...

【专利技术属性】
技术研发人员:谢黛娜何宇轩牟昊李旭日徐亚波
申请(专利权)人:广东横琴数说故事信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1