标注数据的扩充方法技术

技术编号:39826674 阅读:11 留言:0更新日期:2023-12-29 16:02
本申请属于人工智能领域与金融科技领域,涉及一种标注数据的扩充方法,包括:从多个渠道获取文本数据;对文本数据中的非标注数据进行实体识别,得到处理后的非标注数据;对标注数据与处理后的非标注数据进行知识图谱构建得到目标知识图谱;获取待补充的原始标注数据;基于目标知识图谱对原始标注数据进行数据扩充处理,以构建出对应的目标标注数据

【技术实现步骤摘要】
标注数据的扩充方法、装置、计算机设备及存储介质


[0001]本申请涉及人工智能开发
与金融科技领域,尤其涉及标注数据的扩充方法

装置

计算机设备及存储介质


技术介绍

[0002]随着人工智能的快速发展,在计算机视觉

自然语言处理等方面出现了极大的突破,相应的,随着人工智能的快速发展,数据标注的需求在金融科技公司,例如保险公司

银行等的业务处理中也在逐步增加

[0003]在现有的很多金融行业应用中,例如金融

医疗

电商等,都需要对大量的文本数据进行标注和分类,以支持后续的数据挖掘

机器学习等任务

但是由于标注数据的获取成本较高,目前可用的标注数据量往往比较有限,且质量参差不齐,这也成为了当前标注数据处理中的痛点之一

[0004]现有的应用于金融行业中的标注数据扩充的方法,通过是由人工构建统一的数据扩充规则,进而在业务系统中运行该数据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种标注数据的扩充方法,其特征在于,包括下述步骤:从预设的多个渠道获取文本数据;其中,所述文本数据至少包括标注数据与非标注数据;对所述文本数据中的所述非标注数据进行实体识别,得到处理后的非标注数据;基于知识图谱技术对所述标注数据与所述处理后的非标注数据进行知识图谱构建,得到对应的目标知识图谱;获取待补充的原始标注数据;基于所述目标知识图谱对所述原始标注数据进行数据扩充处理,以构建出与所述原始标注数据对应的目标标注数据
。2.
根据权利要求1所述的标注数据的扩充方法,其特征在于,所述从预设的多个渠道获取文本数据的步骤,具体包括:从所述多个渠道分别获取各自对应的渠道文本数据;对所有所述渠道文本数据进行整合处理,得到对应的初始文本数据;对所述初始文本数据进行数据清洗处理,得到对应的第一文本数据;对所述第一文本数据进行数据去重处理,得到对应的第二文本数据;对所述第二文本数据进行格式化处理,得到对应的第三文本数据;将所述第三文本数据作为所述文本数据
。3.
根据权利要求1所述的标注数据的扩充方法,其特征在于,所述对所述文本数据中的所述非标注数据进行实体识别,得到处理后的非标注数据的步骤,具体包括:获取预设的实体识别策略;调用与所述实体识别策略对应的目标处理介质;基于所述目标处理介质对所述文本数据中的所述非标注数据进行实体识别,得到处理后的非标注数据
。4.
根据权利要求1所述的标注数据的扩充方法,其特征在于,所述基于知识图谱技术对所述标注数据与所述处理后的非标注数据进行知识图谱构建,得到对应的目标知识图谱的步骤,具体包括:基于所述知识图谱技术,对所述标注数据与所述处理后的非标注数据进行实体消歧,得到对应的第一数据;对所述第一数据进行实体链接,得到对应的第二数据;对所述第二数据进行知识抽取,得到对应的第三数据;对所述第三数据进行知识融合,以构建出对应的所述目标知识图谱
。5.
根据权利要求1所述的标注数据的扩充方法,其特征在于,所述基于所述目标知识图谱对所述原始标注数据进行数据扩充处理,以构建出与所述原始标注数据对应的目标标注数据的步骤,具体包括:获取所述原始标注数据中...

【专利技术属性】
技术研发人员:梁凯程
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1