【技术实现步骤摘要】
一种面向期货领域的知识图谱构建方法
[0001]本申请涉及数据处理
,特别是涉及一种面向期货领域的知识图谱构建方法
。
技术介绍
[0002]在期货领域中,存在着大量的资讯
、
研报
、
行情
、
直播
、
视频和音频等多种异构化数据,如何从这些数据中抽取具有通识意义的产业链事理逻辑知识图谱,并应用到期货投研等多种场景中,成为目前期货领域数智化业务的热点
。
[0003]但是由于期货领域的数智化起步较晚,期货数据结构多样化异构
、
产业链知识面数据宽泛,数据源众多并且质量不一,如何从这些异构数据中抽取产业链事理逻辑知识图谱成为业界难点
。
[0004]目前针对相关技术中如何从期货异构化数据中抽取出产业知识图谱的问题,尚未提出有效的解决方案
。
技术实现思路
[0005]本申请实施例提供了一种面向期货领域的知识图谱构建方法,以至少解决相关技术中如何从期货异构化数据中抽取出产业知识图谱的问题
。
[0006]第一方面,本申请实施例提供了一种面向期货领域的知识图谱构建方法,所述方法包括:对多源异构数据中的至少两项数据进行内容提取,得到统一的文本数据,其中,所述多源异构数据为期货领域中的数据,所述多源异构数据包括
PDF
文档数据
、HTML
网页数据
、
音视频数据和图片数据;对所述文本数据分别进行实体识别 />、
事件抽取和事件元素抽取,得到结构化知识数据;基于所述结构化知识数据生成所述期货领域的知识图谱
。
[0007]在其中一些实施例中,对所述文本数据分别进行实体识别
、
事件抽取和事件元素抽取,得到结构化知识数据包括:通过
UniLM
‑
UIE
模型对所述文本数据进行实体识别,得到所述文本数据的命名实体作为结构化知识数据;通过所述
UniLM
‑
UIE
模型对所述文本数据进行事件抽取,得到所述文本数据的事件作为所述结构化知识数据;通过所述
UniLM
‑
UIE
模型对所述文本数据进行事件元素抽取,得到所述文本数据的事件元素作为所述结构化知识数据
。
[0008]在其中一些实施例中,在对所述文本数据进行实体识别
、
事件抽取和事件元素抽取之前,所述方法包括:基于序列到序列注意力掩码和所述
UniLM
‑
UIE
模型的预设标记机制,得到所述
UniLM
‑
UIE
模型的输入形式和输出形式,其中,所述序列到序列注意力掩码为基于
UniLM
‑
UIE
模型的注意力掩码进行修改得到
。
[0009]在其中一些实施例中,基于所述结构化知识数据生成所述期货领域的知识图谱包括:对所述结构化知识数据进行归类处理以生成事件标签;对所述事件标签进行聚类融合处理,得到所述结构化知识数据的统一表征;基于所述结构化知识数据的统一表征,生成所述期货领域的知识图谱
。
[0010]在其中一些实施例中,对所述结构化知识数据进行归类处理以生成事件标签包括:通过参数高效微调
PEFT
库对预训练语言模型
ChatGLM
进行参数调整,得到面向期货领域的
ChatGLM
模型;对所述结构化知识数据进行依存分析,基于所述依存分析生成所述结构化知识数据的事件标签语料;基于所述事件标签语料,通过所述
ChatGLM
模型生成所述结构化知识数据的事件标签
。
[0011]在其中一些实施例中,对所述事件标签进行聚类融合处理,得到所述结构化知识数据的统一表征包括:通过深度挛生网络模型
SBERT
计算出所述事件标签的语义向量,再基于所述语义向量计算出所述事件标签间的相似度;基于所述相似度,通过预设聚类算法对所述事件标签进行聚类融合处理,得到所述结构化知识数据的统一表征
。
[0012]在其中一些实施例中,对所述多源异构数据中的
PDF
文档数据进行内容提取包括:通过预设
PDF
解析工具,按文档页码对所述多源异构数据中的
PDF
文档数据进行遍历读取,得到所述
PDF
文档数据的特征信息;基于所述特征信息,提取所述
PDF
文档数据的文本对象内容
。
[0013]在其中一些实施例中,对所述多源异构数据中的
HTML
网页数据进行内容提取包括:若所述多源异构数据中的
HTML
网页数据为规则化的网页数据,则基于所述
HTML
网页数据的网页结构特征,通过
Xpath
工具提取所述
HTML
网页数据的文本对象内容;若所述
HTML
网页数据为不规则化的网页数据,则通过
FreeDOM
深度学习模型提取所述
HTML
网页数据的文本对象内容
。
[0014]在其中一些实施例中,对所述多源异构数据中的音视频数据进行内容提取包括:对所述多源异构数据中的音视频数据进行数据格式转换,得到统一格式的音频数据;通过预设语音识别模型对所述音频数据进行识别,得到所述音视频数据的文本内容
。
[0015]在其中一些实施例中,对所述多源异构数据中的图片数据的进行内容提取包括:对所述多源异构数据中的图片数据进行预处理,得到文本字符区域;通过卷积循环神经网络模型对每个所述文本字符区域进行文字识别,得到对应的
文字信息,并记录每个文字信息的滑动窗口位置;基于所述滑动窗口位置对所述文字信息进行拼接,得到所述图片数据的文本内容
。
[0016]相比于相关技术,本申请实施例提供的一种面向期货领域的知识图谱构建方法,该方法通过对多源异构数据中的
PDF
文档数据进行内容提取
、
对
HTML
网页数据进行内容提取
、
对音视频数据进行内容提取和对图片数据的进行内容提取;基于至少一项内容提取得到统一的文本数据,其中,多源异构数据为期货领域中的数据;对文本数据进行实体识别
、
事件抽取和事件元素抽取,得到结构化知识数据;基于该结构化知识数据生成期货领域的知识图谱,解决了如何从期货异构化数据中抽取出产业知识图谱的问题,实现了对各种数据源中异构数据的高召回率和高准确率的内容提取,完成面向期货领域多源异构数据的知识图谱构建
。
附图说明
[0017]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种面向期货领域的知识图谱构建方法,其特征在于,所述方法包括:对多源异构数据中的至少两项数据进行内容提取,得到统一的文本数据,其中,所述多源异构数据为期货领域中的数据,所述多源异构数据包括
PDF
文档数据
、HTML
网页数据
、
音视频数据和图片数据;对所述文本数据分别进行实体识别
、
事件抽取和事件元素抽取,得到结构化知识数据;基于所述结构化知识数据生成所述期货领域的知识图谱
。2.
根据权利要求1所述的方法,其特征在于,对所述文本数据分别进行实体识别
、
事件抽取和事件元素抽取,得到结构化知识数据包括:通过
UniLM
‑
UIE
模型对所述文本数据进行实体识别,得到所述文本数据的命名实体作为结构化知识数据;通过所述
UniLM
‑
UIE
模型对所述文本数据进行事件抽取,得到所述文本数据的事件作为所述结构化知识数据;通过所述
UniLM
‑
UIE
模型对所述文本数据进行事件元素抽取,得到所述文本数据的事件元素作为所述结构化知识数据
。3.
根据权利要求2所述的方法,其特征在于,在对所述文本数据进行实体识别
、
事件抽取和事件元素抽取之前,所述方法包括:基于序列到序列注意力掩码和所述
UniLM
‑
UIE
模型的预设标记机制,得到所述
UniLM
‑
UIE
模型的输入形式和输出形式,其中,所述序列到序列注意力掩码为基于
UniLM
‑
UIE
模型的注意力掩码进行修改得到
。4.
根据权利要求1所述的方法,其特征在于,基于所述结构化知识数据生成所述期货领域的知识图谱包括:对所述结构化知识数据进行归类处理以生成事件标签;对所述事件标签进行聚类融合处理,得到所述结构化知识数据的统一表征;基于所述结构化知识数据的统一表征,生成所述期货领域的知识图谱
。5.
根据权利要求4所述的方法,其特征在于,对所述结构化知识数据进行归类处理以生成事件标签包括:通过参数高效微调
PEFT
库对预训练语言模型
ChatGLM
进行参数调整,得到面向期货领域的
ChatGLM
模...
【专利技术属性】
技术研发人员:吴福文,康维鹏,唐逐时,杨胜利,
申请(专利权)人:浙商期货有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。