内容风控知识库构建方法、装置、设备及存储介质制造方法及图纸

技术编号:37501447 阅读:12 留言:0更新日期:2023-05-07 09:37
本申请公开了一种内容风控知识库构建方法、装置、设备及存储介质。其中,所述方法包括:根据预设语料数据对内容风控领域本体进行建模;其中,所述建模包括本体概念建模和本体关系建模;根据所述建模后的本体概念和本体关系进行内容风控知识抽取;其中,所述内容风控知识抽取包括实体关系抽取和实体抽取;根据抽取的实体关系和实体构建内容风控知识库。本方案通过本体设计形成内容风控知识,构建面向内容风控的领域知识库,为基于知识图谱的内容风控技术服务提供知识支持,并为计算机进行语言理解和知识推理提供可靠的内容风控知识库,提高智能审核的准确性和可靠性。智能审核的准确性和可靠性。智能审核的准确性和可靠性。

【技术实现步骤摘要】
内容风控知识库构建方法、装置、设备及存储介质


[0001]本申请涉及人工智能
,具体涉及一种内容风控知识库构建方法、装置、设备及存储介质。

技术介绍

[0002]面对互联网内容数据量的增长和内容安全的监管要求,以技术为主要工具的内容风控系统服务持续扩大。然而,传统的内容风控知识库多为文献库,不能提供结构化、体系化的风控知识,难以满足内容风控领域的应用需求。随着人工智能和知识图谱技术的快速进步,具备知识推理和知识更新能力的内容风控知识库需求日益迫切,具有十分重要的应用空间。

技术实现思路

[0003]鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的内容风控知识库构建方法、装置、设备及存储介质。
[0004]根据本申请的一个方面,提供了一种内容风控知识库构建方法,包括:
[0005]根据预设语料数据对内容风控领域本体进行建模;其中,所述建模包括本体概念建模和本体关系建模;
[0006]根据所述建模后的本体概念和本体关系进行内容风控知识抽取;其中,所述内容风控知识抽取包括实体关系抽取和实体抽取;
[0007]根据抽取的实体关系和实体构建内容风控知识库。
[0008]根据本申请的另一个方面,提供了一种内容风控知识库构建装置,包括:
[0009]建模模块,用于根据预设语料数据对内容风控领域本体进行建模;其中,所述建模包括本体概念建模和本体关系建模;
[0010]知识抽取模块,用于根据所述建模后的本体概念和本体关系进行内容风控知识抽取;其中,所述内容风控知识抽取包括实体关系抽取和实体抽取;
[0011]知识库构建模块,用于根据抽取的实体关系和实体构建内容风控知识库。
[0012]根据本申请的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0013]所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行本申请所述的内容风控知识库构建方法对应的操作。
[0014]根据本申请的另一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行本申请所述的内容风控知识库构建方法对应的操作。
[0015]根据本申请公开的内容风控知识库构建方法、设备及存储介质,通过根据预设语料数据对内容风控领域本体进行建模;其中,所述建模包括本体概念建模和本体关系建模;根据所述建模后的本体概念和本体关系进行内容风控知识抽取;其中,所述内容风控知识
抽取包括实体关系抽取和实体抽取;根据抽取的实体关系和实体构建内容风控知识库。这样通过本体设计形成内容风控知识,构建面向内容风控的领域知识库,为基于知识图谱的内容风控技术服务提供知识支持,并为计算机进行语言理解和知识推理提供可靠的内容风控知识库,提高智能审核的准确性和可靠性。
[0016]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0017]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0018]图1示出了根据本申请实施例一提供的一种内容风控知识库构建方法的流程示意图;
[0019]图2示出了根据本申请实施例一提供的一种内容风控知识库构建方法中的本体建模示意图;
[0020]图3示出了根据本申请实施例一提供的一种内容风控知识库构建方法中的实体关系抽取和实体抽取流程示意图;
[0021]图4示出了根据本申请实施例二提供的一种内容风控知识库构建方法中NARRE双塔模型建模过程示意图;
[0022]图5示出了根据本申请实施三提供的一种内容风控知识库构建装置的结构示意图;
[0023]图6示出了根据本申请实施例五提供的一种电子设备的结构示意图。
具体实施方式
[0024]下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
[0025]实施例一
[0026]图1示出了根据本申请实施例一提供的一种内容风控知识库构建方法的流程示意图。如图1所示,该方法包括:
[0027]步骤S11,根据预设语料数据对内容风控领域本体进行建模;其中,建模包括本体概念建模和本体关系建模。
[0028]其中,预设语料数据可以提前获取,例如,可以为句子、词语等。具体的,可以以主流媒体官网首页为准,采取以点及面、逐层深入的模式,通过网络链接,深度解析超文本标记语言(Hyper Text Markup Language,HTML)标记语言,对HTML标记内容定时进行获取和解析,得到原始语料数据。原始语料数据获取后会对原始语料数据进行预处理,包括对多来源的原始语料数据去重和去除文本中的标签和特殊字符等。在特征提取过程中,本实施例
综合利用词语的主题相关度来计算关键词权重,进而提取文本特征,结合相关的相似度算法得到数据语义相似程度,整合快速聚类算法,得到最终的语义相似度,实现原始语料数据去重,得到预设语料数据。
[0029]其中,本体是一种重要的知识库,表示主题领域的词汇的基本术语和关系。内容风控领域本体是包括内容风控术语、术语间的规范关系及说明的体系。本实施例采用多策略融合的方法抽取本体术语,对预设语料数据基于停用词、数词、量词、日期、地点名词拆解、词性分析、分词后词性分析,命名实体识别低频人名、人工筛选关键词等要素设计领域术语过滤算法,对初始术语多轮过滤,以滤除术语中无明显意义、语法结构混乱或者语义接近的词汇,最终获得内容风控领域本体术语。
[0030]步骤S12,根据建模后的本体概念和本体关系进行内容风控知识抽取;其中,内容风控知识抽取包括实体关系抽取和实体抽取。
[0031]具体的,首先采用分类任务的微调预训练语言模型进行实体关系抽取,然后融合实体关系信息及预训练语言模型进行实体抽取。
[0032]步骤S13,根据抽取的实体关系和实体构建内容风控知识库。
[0033]具体的,可以采用RDF(Resource Description Framework,资源框架系统)存储系统,将内容风控知识作为图数据进行存储,使用关系型数据库作为底层存储。
[0034]由此可见,本实施例通过根据预设语料数据对内容风控领域本体进行建模;其中,建模包括本体概念建模和本体关系建模;根据建模后的本体概念和本体关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种内容风控知识库构建方法,其特征在于,包括:根据预设语料数据对内容风控领域本体进行建模;其中,所述建模包括本体概念建模和本体关系建模;根据所述建模后的本体概念和本体关系进行内容风控知识抽取;其中,所述内容风控知识抽取包括实体关系抽取和实体抽取;根据抽取的实体关系和实体构建内容风控知识库。2.根据权利要求1所述的方法,其特征在于,所述本体概念建模,包括:根据预设语料数据获取内容风控领域本体术语;计算所述内容风控领域本体术语的词嵌入特征,并对所述词嵌入特征进行多级聚类;根据内容风控的特点和媒体内容5W要素,将内容风控领域本体概念建模为人物、机构、事件和领域特征词表。3.根据权利要求1所述的方法,其特征在于,所述本体关系建模,包括:当内容风控领域本体术语间的关系为层次关系时,采用专家预设的模板、基于语言规则和聚类方法多策略方式抽取;当内容风控领域本体术语间的关系为非层次关系时,采用自然语言处理技术对语料数据进行分析,识别每个句子中的核心动词,结合上下文寻找与所述核心动词紧邻的术语,构建两个术语之间的关系。4.根据权利要求1所述的方法,其特征在于,所述实体关系抽取,包括:给定一个句子,将所述句子送入编码器获得对应的词向量;通过模拟所述词向量的重要程度及之间的相关性实现实体信息的隐编码,并加入平均池化操作获取句子的实体嵌入特征;将所述实体嵌入向量与所述词向量进行拼接,并通过神经网络进行分类从而获取整个句子的实体关系表示。5.根据权利要求4所述的方法,其特征在于,所述实体抽取,包括:根据所述实体关系表示获得关系提示信息的连续表示;将所述...

【专利技术属性】
技术研发人员:张凤珍靳国庆李罗政张冬明张勇东辛瑞佳曲畅
申请(专利权)人:人民网信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1