多模态内容要职信息时效性勘误方法、装置、设备及介质制造方法及图纸

技术编号：40660650 阅读：7 留言：0更新日期：2024-03-18 18:53

本申请公开了一种多模态内容要职信息时效性勘误方法、装置、设备及介质，涉及信息处理技术领域。所述方法是先从多模态内容中提取出待勘误要职人物的待勘误结构化信息，然后针对各个待勘误要职人物，从要职信息知识库中匹配出主键内容与在对应的待勘误结构化信息中的人名和职务相似的以及任职时间包含有在对应的待勘误结构化信息中的稿件时刻的要职人物结构化信息作为对应的要职人物实体链接信息，最后根据待勘误结构化信息与要职人物实体链接信息的比对结果，确定待勘误结构化信息是否有误，并在有误时给出修改提示，如此不仅能够应对不同时间阶段的要职信息及内容勘误，还能支持多种媒体形式的内容素材，以便更好地满足真实场景中的应用需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息处理，具体涉及一种多模态内容要职信息时效性勘误方法、装置、设备及介质。

技术介绍

1、随着互联网的迅猛发展，尤其是网络直播、微博、微信公众号和自媒体等新技术形态的兴起，在互联网络上传播的信息内容呈现蓬勃增长的势头。这不仅意味着更大的流量，同时也预示着潜藏有巨大的内容安全隐患。

2、面对日益增长的内容安全挑战，传统的人工勘误方式已无法满足实际需求；为解决这一问题，业界逐步尝试在实际场景中引入机器辅助勘误的方法，但具体效果参差不齐。特别是涉及要职人物信息（本文简称要职信息）准确性的校验，由于涵盖了人名、性别、地名、职务、人名顺序和职务顺序等多个信息维度，使得勘误规则异常复杂；与此同时，要职人物（即担任重要职位的人物）的职务等相关信息的频繁更新，会进一步使得勘误工作变得更加棘手。

3、另外，目前业界常用的勘误方法，往往仅限于文本材料，而忽略了图片和音视频等多模态内容。此外，针对不同时间段产出的内容与当时的要职信息是否匹配也成为一项难以克服的难题。如此有必要提供一种与时间相关的多模态内容要职信息勘误方案，不仅能够应对不同时间阶段的要职信息及内容勘误，还能支持包括有文本、图片和音视频等多种媒体形式的内容素材，以便更好地满足真实场景中的应用需求。

技术实现思路

1、本专利技术的目的是提供一种多模态内容要职信息时效性勘误方法、装置、计算机设备及计算机可读存储介质，用以解决在多模态内容安全场景中所存在多时间阶段的要职信息勘误问题。

2、为了实现

3、第一方面，提供了一种多模态内容要职信息时效性勘误方法，包括：

4、构建得到要职信息知识库，其中，所述要职信息知识库记录有所有要职人物的且以人名和职务为主键进行聚合关联的要职人物结构化信息，所述要职人物结构化信息包含有所述人名、性别、所述职务、任职时间、任职地点、职务顺序和要职人物排序；

5、获取待勘误的多模态内容，其中，所述多模态内容包含有文本内容、图片内容、音频内容和/或视频内容；

6、对所述多模态内容进行文本提取处理，得到待勘误文本；

7、从所述待勘误文本中抽取出所有待勘误要职人物的待勘误结构化信息，其中，所述待勘误结构化信息包含有人名、职务、性别、地名和稿件时刻，所述稿件时刻是指所述多模态内容的投稿时间戳；

8、针对在所述所有待勘误要职人物中的各个待勘误要职人物，从所述要职信息知识库中匹配出某个要职人物结构化信息作为对应的要职人物实体链接信息，其中，所述某个要职人物结构化信息的主键内容与在对应的所述待勘误结构化信息中的人名和职务相似，并且所述某个要职人物结构化信息的任职时间包含有在对应的所述待勘误结构化信息中的稿件时刻；

9、根据所述各个待勘误要职人物的所述待勘误结构化信息与所述要职人物实体链接信息的比对结果，确定所述所有待勘误要职人物的所述待勘误结构化信息是否有误，并在有误时给出修改提示消息。

10、基于上述
技术实现思路
，提供了一种与时间相关的多模态内容要职信息勘误方案，即在构建得到要职信息知识库以及待勘误的多模态内容后，先从多模态内容中提取出所有待勘误要职人物的待勘误结构化信息，然后针对各个待勘误要职人物，从要职信息知识库中匹配出主键内容与在对应的待勘误结构化信息中的人名和职务相似的以及任职时间包含有在对应的待勘误结构化信息中的稿件时刻的要职人物结构化信息作为对应的要职人物实体链接信息，最后根据各个待勘误要职人物的待勘误结构化信息与要职人物实体链接信息的比对结果，确定待勘误结构化信息是否有误，并在有误时给出修改提示消息，如此不仅能够应对不同时间阶段的要职信息及内容勘误，还能支持包括有文本、图片和音视频等多种媒体形式的内容素材，以便更好地满足真实场景中的应用需求，便于实际应用和推广。

11、在一个可能的设计中，构建得到要职信息知识库，包括：

12、根据预先确定的目标勘误要职范围，从要职信息公示网站上爬取得到与要职人物相关的网络数据，其中，所述要职人物的人名和/或所述要职人物的职务属于所述目标勘误要职范围；

13、基于cluener2020数据集，构建包含有人名、地名、职务、性别和时间的训练数据集；

14、基于所述训练数据集，微调训练用于实体识别的roberta-base-chinese实体识别模型，得到用于识别人名、职务、性别、地名和时间的要职信息实体识别模型；

15、基于为所述训练数据集中的人名、地名、职务、性别和时间标注的关联关系数据，微调训练用于关系识别的roberta-base-chinese关系识别模型，得到用于识别人名与职务、性别、地名和时间的关联关系的要职信息实体关系识别模型；

16、利用所述要职信息实体识别模型和所述要职信息实体关系识别模型，从所述网络数据中抽取所述要职人物的人名以及与该人名相关的职务、性别、地名和时间，并以该人名和该职务为主键进行聚合关联、以该时间为任职时间和以该地名为任职地点，得到所述要职人物的且包含有该人名、该性别、该职务、该任职时间和该任职地点的要职人物结构化初始信息；

17、将各个所述要职人物的所述要职人物结构化初始信息推送至人机交互界面进行人工合并、人工修正、人工排序和人工确认，得到所有所述要职人物的以人名和职务为主键进行聚合关联的以及包含有该人名、性别、该职务、任职时间、任职地点、职务顺序和要职人物排序的要职人物结构化信息；

18、将所有所述要职人物的要职人物结构化信息记录到知识库中，得到要职信息知识库。

19、在一个可能的设计中，在构建得到要职信息知识库之后，所述方法还包括：

20、实时监测在所述要职信息公示网站上是否有与所述要职人物相关的网络刷新数据，若有，则从所述要职信息公示网站上爬取得到所述网络刷新数据；

21、利用所述要职信息实体识别模型和所述要职信息实体关系识别模型，从所述网络刷新数据中抽取得到所述要职人物的且刷新的所述要职人物结构化初始信息；

22、将所述要职人物的且刷新的所述要职人物结构化初始信息推送至所述人机交互界面进行人工合并、人工修正、人工排序和人工确认，得到所述要职人物的且刷新的所述要职人物结构化信息；

23、根据所述要职人物的且刷新的所述要职人物结构化信息，对所述要职信息知识库进行更新维护。

24、在一个可能的设计中，从所述待勘误文本中抽取出所有待勘误要职人物的待勘误结构化信息，包括：

25、利用所述要职信息实体识别模型和所述要职信息实体关系识别模型，从所述待勘误文本中抽取出所有待勘误要职人物的待勘误结构化信息，其中，所述待勘误结构化信息包含有人名、职务、性别、地名和稿件时刻，所述稿件时刻是指所述多模态内容的投稿时间戳。

26、在一个可能的设计中，对所述多模态内容进行文本提取处理，得到待勘误文本，包括：

27、当所述多模态内容包含有本文档来自技高网...

【技术保护点】

1.一种多模态内容要职信息时效性勘误方法，其特征在于，包括：

2.根据权利要求1所述的多模态内容要职信息时效性勘误方法，其特征在于，构建得到要职信息知识库，包括：

3.根据权利要求2所述的多模态内容要职信息时效性勘误方法，其特征在于，在构建得到要职信息知识库之后，所述方法还包括：

4.根据权利要求2所述的多模态内容要职信息时效性勘误方法，其特征在于，从所述待勘误文本中抽取出所有待勘误要职人物的待勘误结构化信息，包括：

5.根据权利要求1所述的多模态内容要职信息时效性勘误方法，其特征在于，对所述多模态内容进行文本提取处理，得到待勘误文本，包括：

6.根据权利要求1所述的多模态内容要职信息时效性勘误方法，其特征在于，针对在所述所有待勘误要职人物中的各个待勘误要职人物，从所述要职信息知识库中匹配出某个要职人物结构化信息作为对应的要职人物实体链接信息，包括：

7.根据权利要求1所述的多模态内容要职信息时效性勘误方法，其特征在于，根据所述各个待勘误要职人物的所述待勘误结构化信息与所述要职人物实体链接信息的比对结果，确定

8.一种多模态内容要职信息时效性勘误装置，其特征在于，包括有知识库构建模块、内容获取模块、文本提取模块、信息抽取模块、信息匹配模块和比对勘误模块；

9.一种计算机设备，其特征在于，包括有依次通信连接的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如权利要求1～7中任意一项所述的多模态内容要职信息时效性勘误方法。

10.一种计算机可读存储介质，其特征在于,所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如权利要求1～7中任意一项所述的多模态内容要职信息时效性勘误方法。

...

【技术特征摘要】

1.一种多模态内容要职信息时效性勘误方法，其特征在于，包括：

2.根据权利要求1所述的多模态内容要职信息时效性勘误方法，其特征在于，构建得到要职信息知识库，包括：

3.根据权利要求2所述的多模态内容要职信息时效性勘误方法，其特征在于，在构建得到要职信息知识库之后，所述方法还包括：

5.根据权利要求1所述的多模态内容要职信息时效性勘误方法，其特征在于，对所述多模态内容进行文本提取处理，得到待勘误文本，包括：

<...

【专利技术属性】
技术研发人员：高登科，徐桢虎，吴方印，苏忠莹，李少博，
申请(专利权)人：四川封面传媒科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人