System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于知识图谱的产业链分析方法及系统技术方案_技高网

基于知识图谱的产业链分析方法及系统技术方案

技术编号:42723246 阅读:13 留言:0更新日期:2024-09-13 12:09
本发明专利技术提供一种基于知识图谱的产业链分析方法及系统,包括:数据收集步骤:收集构建知识图谱所需的相关数据;数据预处理步骤:对收集的数据进行清洗、去重、格式化在内的预处理操作,保证数据的质量和一致性;知识抽取步骤:利用自然语言处理技术,从预处理后的数据中自动抽取出产业链相关的实体和关系;知识图谱构建步骤:将抽取出的实体和关系构建成知识图谱,形成产业链的知识库;可视化分析步骤:利用图形化工具对构建好的知识图谱进行可视化展示,支持用户进行交互式的产业链分析和探索,并进行实时数据处理,动态更新知识图谱。本发明专利技术能够解决在处理复杂产业链数据时所面临的数据整合困难、分析时效性低、准确性不足的问题。

【技术实现步骤摘要】

本专利技术涉及数据分析和知识管理,具体地,涉及一种基于知识图谱的产业链分析方法及系统


技术介绍

1、随着全球经济的快速发展,上市公司的产业链变得越来越复杂。传统的产业链分析方法主要依赖于人工分析,效率低下且容易出错。现有技术在处理复杂产业链数据时,常常面临数据整合困难、分析时效性低等问题,无法满足现代企业对实时、准确分析的需求。知识图谱技术作为一种新兴的数据管理和分析工具,能够有效地解决这一问题。通过自动抽取和构建产业链知识库,可以实现对上市公司产业链的可视化分析和探索,从而提高分析效率和准确性。

2、知识图谱本质上是一种语义网络,用图的形式描述客观事物,图由节点和边组成。知识图谱中的节点表示概念和实体,概念是抽象出来的事物,实体是具体的事物;边表示事物的关系和属性,事物的内部特征用属性来表示,外部联系用关系来表示。知识图谱以“实体关系实体”或“实体属性属性值”的三元组存储,形成一个图状知识库。

3、在进行产业链知识图谱构建时,会碰到很多汉语命名的实体识别和实体名称歧义。比如实体名称会有多种不同的表示方法,上市公司万科的名称有:万科、万科集团、万科a、万科股份有限公司等等。万科主营业务的名称有:房地产、房地产开发、房地产建设、房地产相关业务等多种表示方法。这样对于我们构建的知识图谱会产生大量的重名和多名现象。因此需要对知识图谱中的实体进行实体识别、歧义消解和指代消解,从而对于产业链知识图谱的构建获得更有价值的数据。

4、现有技术中,公开号为cn117829325a的专利技术专利,公开了一种基于知识图谱邻接节点的企业失信风险预测方法,通过知识图谱三元组,将节点映射到关系所在的空间,并通过降低头节点加关系之后的表示向量和尾节点的距离,学习节点和关系的向量表示,从而实现对企业是否会发生失信风险的预测。

5、另一项公开号为cn118070896a的专利技术专利,公开了一种基于知识图谱的信息处理方法及系统,通过获取目标运算调度知识图谱并加载至实体识别网络,生成各目标节点关联的目标实体界定域,从而提高了实体识别的准确性。

6、此外,公开号为cn112328803a的专利技术专利,公开了种一种基于产业链数据的公司知识图谱的构建方法,通过根据上市公司财报、产业链图谱和国家行业标准建立数据库单元,利用深度学习模块进行匹配训练并输出模型,实现了对公司知识图谱的构建。

7、公开号为cn109255034a的专利技术专利,公开了一种基于产业链的行业知识图谱构建方法,通过对产业链进行建模,再根据所构建的产业链模型构建行业知识图谱,有效减少了行业知识提取过程中噪声过大的问题,并实现了增量知识学习。公开号为cn113312497a的专利技术专利,公开了一种基于知识图谱的前瞻因子筛选方法及其系统,通过扩展企业产业链图谱中的节点,提取原材料和主营产品节点作为关键词,并通过模糊匹配和相关性计算,获得企业前瞻因子。

8、最后,公开号为cn117573889a的专利技术专利,公开了一种产业链知识图谱的构建方法,通过获取产业链知识信息并提取实体和实体关系,基于python库进行自动化标注,并通过convm模型训练输出关于产业链的三元组知识图谱。

9、综上所述,现有技术在知识图谱构建和应用方面已经取得了一定的进展,但在处理复杂产业链数据时仍存在一些问题,如数据整合困难、分析时效性低、准确性不足等。因此,提出一种新的基于知识图谱的上市公司产业链分析方法及系统,以解决现有技术中的不足。

10、本申请相关的专有名词解释:

11、1. application programming interface (api)

12、中文:应用程序接口;解释:api是允许不同软件系统相互通信的工具和协议集合。

13、2. natural language processing (nlp)

14、中文:自然语言处理;解释:nlp是人工智能的一个分支,专注于人与计算机之间用自然语言进行的交互。

15、3. named entity recognition (ner)

16、中文:命名实体识别;解释:ner是自然语言处理中的一个任务,用于识别文本中的实体如人名、地名、组织等。

17、4. relation extraction (re)

18、中文:关系抽取;解释:re是自然语言处理中的一个任务,用于识别和分类文本中实体之间的语义关系。

19、5. graph neural network (gnn)

20、中文:图神经网络;解释:gnn是一种深度学习模型,用于处理图结构数据,通过节点和边的特征学习来实现各种任务。

21、6. long shortterm memory (lstm)

22、中文:长短期记忆;解释:lstm是一种递归神经网络,用于处理和预测基于时间序列的数据。

23、7. conditional random fields (crf)

24、中文:条件随机场;解释:crf是一种用于序列标注任务的概率模型,广泛应用于自然语言处理任务。

25、8. graph convolutional network (gcn)

26、中文:图卷积网络;解释:gcn是一种图神经网络,用于在图结构数据上执行卷积操作。

27、9. bidirectional long shortterm memory (bilstm)

28、中文:双向长短期记忆;解释:bilstm是lstm的一种扩展形式,通过双向的信息流来提高模型的上下文理解能力。

29、10. bidirectional encoder representations from transformers (bert)

30、中文:双向编码器表示的转换器;解释:bert是一种预训练语言模型,通过双向transformer结构来提高自然语言理解任务的性能。

31、11. recurrent neural network (rnn)

32、中文:递归神经网络;解释:rnn是一种神经网络,擅长处理序列数据,通过记忆前面时刻的信息来进行预测。

33、12. python data analysis library (pandas)

34、中文:python数据分析库;解释:pandas是一个用于数据操作和分析的python库。

35、13. spacy

36、中文:无特定中文翻译(python的自然语言处理库);解释:spacy是一个开源的高性能自然语言处理库。

37、14. natural language toolkit (nltk)

38、中文:自然语言工具包;解释:nltk是一个用于自然语言处理的开源python库。

39、15. pytorch

...

【技术保护点】

1.一种基于知识图谱的产业链分析方法,其特征在于,包括:

2.根据权利要求1所述的基于知识图谱的产业链分析方法,其特征在于,所述数据收集步骤包括:

3.根据权利要求1所述的基于知识图谱的产业链分析方法,其特征在于,所述知识抽取步骤包括:命名实体识别,具体如下:

4.根据权利要求3所述的基于知识图谱的产业链分析方法,其特征在于,所述知识抽取步骤还包括:关系抽取,具体如下:

5.根据权利要求4所述的基于知识图谱的产业链分析方法,其特征在于,所述知识图谱构建步骤中将抽取出的实体和关系构建成知识图谱,形成产业链的知识库,具体包括:构建知识图谱、利用神经网络优化实体和关系;

6.根据权利要求4所述的基于知识图谱的产业链分析方法,其特征在于,所述可视化分析步骤包括用户交互实现、实时数据处理以及知识图谱的动态更新;

7.一种基于知识图谱的产业链分析系统,基于权利要求1-6任一项所述的基于知识图谱的产业链分析方法,其特征在于,包括:数据收集模块、数据预处理模块、知识抽取模块、知识图谱构建模块、可视化分析模块以及数据安全模块;

8.根据权利要求7所述的基于知识图谱的产业链分析系统,其特征在于,所述数据安全模块包括:数据预处理中的数据加密、可视化分析中的访问控制和用户认证;

9.根据权利要求8所述的基于知识图谱的产业链分析系统,其特征在于,所述系统还包括支持多用户操作和并发请求处理;

...

【技术特征摘要】

1.一种基于知识图谱的产业链分析方法,其特征在于,包括:

2.根据权利要求1所述的基于知识图谱的产业链分析方法,其特征在于,所述数据收集步骤包括:

3.根据权利要求1所述的基于知识图谱的产业链分析方法,其特征在于,所述知识抽取步骤包括:命名实体识别,具体如下:

4.根据权利要求3所述的基于知识图谱的产业链分析方法,其特征在于,所述知识抽取步骤还包括:关系抽取,具体如下:

5.根据权利要求4所述的基于知识图谱的产业链分析方法,其特征在于,所述知识图谱构建步骤中将抽取出的实体和关系构建成知识图谱,形成产业链的知识库,具体包括:构建知识图谱、利用神经网络优化实体和关系;

6.根据...

【专利技术属性】
技术研发人员:王日红
申请(专利权)人:上海大智慧财汇数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1