System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据分析和知识管理,具体地,涉及一种基于知识图谱的产业链分析方法及系统。
技术介绍
1、随着全球经济的快速发展,上市公司的产业链变得越来越复杂。传统的产业链分析方法主要依赖于人工分析,效率低下且容易出错。现有技术在处理复杂产业链数据时,常常面临数据整合困难、分析时效性低等问题,无法满足现代企业对实时、准确分析的需求。知识图谱技术作为一种新兴的数据管理和分析工具,能够有效地解决这一问题。通过自动抽取和构建产业链知识库,可以实现对上市公司产业链的可视化分析和探索,从而提高分析效率和准确性。
2、知识图谱本质上是一种语义网络,用图的形式描述客观事物,图由节点和边组成。知识图谱中的节点表示概念和实体,概念是抽象出来的事物,实体是具体的事物;边表示事物的关系和属性,事物的内部特征用属性来表示,外部联系用关系来表示。知识图谱以“实体关系实体”或“实体属性属性值”的三元组存储,形成一个图状知识库。
3、在进行产业链知识图谱构建时,会碰到很多汉语命名的实体识别和实体名称歧义。比如实体名称会有多种不同的表示方法,上市公司万科的名称有:万科、万科集团、万科a、万科股份有限公司等等。万科主营业务的名称有:房地产、房地产开发、房地产建设、房地产相关业务等多种表示方法。这样对于我们构建的知识图谱会产生大量的重名和多名现象。因此需要对知识图谱中的实体进行实体识别、歧义消解和指代消解,从而对于产业链知识图谱的构建获得更有价值的数据。
4、现有技术中,公开号为cn117829325a的专利技术专利,公开了一种基
5、另一项公开号为cn118070896a的专利技术专利,公开了一种基于知识图谱的信息处理方法及系统,通过获取目标运算调度知识图谱并加载至实体识别网络,生成各目标节点关联的目标实体界定域,从而提高了实体识别的准确性。
6、此外,公开号为cn112328803a的专利技术专利,公开了种一种基于产业链数据的公司知识图谱的构建方法,通过根据上市公司财报、产业链图谱和国家行业标准建立数据库单元,利用深度学习模块进行匹配训练并输出模型,实现了对公司知识图谱的构建。
7、公开号为cn109255034a的专利技术专利,公开了一种基于产业链的行业知识图谱构建方法,通过对产业链进行建模,再根据所构建的产业链模型构建行业知识图谱,有效减少了行业知识提取过程中噪声过大的问题,并实现了增量知识学习。公开号为cn113312497a的专利技术专利,公开了一种基于知识图谱的前瞻因子筛选方法及其系统,通过扩展企业产业链图谱中的节点,提取原材料和主营产品节点作为关键词,并通过模糊匹配和相关性计算,获得企业前瞻因子。
8、最后,公开号为cn117573889a的专利技术专利,公开了一种产业链知识图谱的构建方法,通过获取产业链知识信息并提取实体和实体关系,基于python库进行自动化标注,并通过convm模型训练输出关于产业链的三元组知识图谱。
9、综上所述,现有技术在知识图谱构建和应用方面已经取得了一定的进展,但在处理复杂产业链数据时仍存在一些问题,如数据整合困难、分析时效性低、准确性不足等。因此,提出一种新的基于知识图谱的上市公司产业链分析方法及系统,以解决现有技术中的不足。
10、本申请相关的专有名词解释:
11、1. application programming interface (api)
12、中文:应用程序接口;解释:api是允许不同软件系统相互通信的工具和协议集合。
13、2. natural language processing (nlp)
14、中文:自然语言处理;解释:nlp是人工智能的一个分支,专注于人与计算机之间用自然语言进行的交互。
15、3. named entity recognition (ner)
16、中文:命名实体识别;解释:ner是自然语言处理中的一个任务,用于识别文本中的实体如人名、地名、组织等。
17、4. relation extraction (re)
18、中文:关系抽取;解释:re是自然语言处理中的一个任务,用于识别和分类文本中实体之间的语义关系。
19、5. graph neural network (gnn)
20、中文:图神经网络;解释:gnn是一种深度学习模型,用于处理图结构数据,通过节点和边的特征学习来实现各种任务。
21、6. long shortterm memory (lstm)
22、中文:长短期记忆;解释:lstm是一种递归神经网络,用于处理和预测基于时间序列的数据。
23、7. conditional random fields (crf)
24、中文:条件随机场;解释:crf是一种用于序列标注任务的概率模型,广泛应用于自然语言处理任务。
25、8. graph convolutional network (gcn)
26、中文:图卷积网络;解释:gcn是一种图神经网络,用于在图结构数据上执行卷积操作。
27、9. bidirectional long shortterm memory (bilstm)
28、中文:双向长短期记忆;解释:bilstm是lstm的一种扩展形式,通过双向的信息流来提高模型的上下文理解能力。
29、10. bidirectional encoder representations from transformers (bert)
30、中文:双向编码器表示的转换器;解释:bert是一种预训练语言模型,通过双向transformer结构来提高自然语言理解任务的性能。
31、11. recurrent neural network (rnn)
32、中文:递归神经网络;解释:rnn是一种神经网络,擅长处理序列数据,通过记忆前面时刻的信息来进行预测。
33、12. python data analysis library (pandas)
34、中文:python数据分析库;解释:pandas是一个用于数据操作和分析的python库。
35、13. spacy
36、中文:无特定中文翻译(python的自然语言处理库);解释:spacy是一个开源的高性能自然语言处理库。
37、14. natural language toolkit (nltk)
38、中文:自然语言工具包;解释:nltk是一个用于自然语言处理的开源python库。
39、15. pytorch
...
【技术保护点】
1.一种基于知识图谱的产业链分析方法,其特征在于,包括:
2.根据权利要求1所述的基于知识图谱的产业链分析方法,其特征在于,所述数据收集步骤包括:
3.根据权利要求1所述的基于知识图谱的产业链分析方法,其特征在于,所述知识抽取步骤包括:命名实体识别,具体如下:
4.根据权利要求3所述的基于知识图谱的产业链分析方法,其特征在于,所述知识抽取步骤还包括:关系抽取,具体如下:
5.根据权利要求4所述的基于知识图谱的产业链分析方法,其特征在于,所述知识图谱构建步骤中将抽取出的实体和关系构建成知识图谱,形成产业链的知识库,具体包括:构建知识图谱、利用神经网络优化实体和关系;
6.根据权利要求4所述的基于知识图谱的产业链分析方法,其特征在于,所述可视化分析步骤包括用户交互实现、实时数据处理以及知识图谱的动态更新;
7.一种基于知识图谱的产业链分析系统,基于权利要求1-6任一项所述的基于知识图谱的产业链分析方法,其特征在于,包括:数据收集模块、数据预处理模块、知识抽取模块、知识图谱构建模块、可视化分析模块以及数据安全模块;
8.根据权利要求7所述的基于知识图谱的产业链分析系统,其特征在于,所述数据安全模块包括:数据预处理中的数据加密、可视化分析中的访问控制和用户认证;
9.根据权利要求8所述的基于知识图谱的产业链分析系统,其特征在于,所述系统还包括支持多用户操作和并发请求处理;
...【技术特征摘要】
1.一种基于知识图谱的产业链分析方法,其特征在于,包括:
2.根据权利要求1所述的基于知识图谱的产业链分析方法,其特征在于,所述数据收集步骤包括:
3.根据权利要求1所述的基于知识图谱的产业链分析方法,其特征在于,所述知识抽取步骤包括:命名实体识别,具体如下:
4.根据权利要求3所述的基于知识图谱的产业链分析方法,其特征在于,所述知识抽取步骤还包括:关系抽取,具体如下:
5.根据权利要求4所述的基于知识图谱的产业链分析方法,其特征在于,所述知识图谱构建步骤中将抽取出的实体和关系构建成知识图谱,形成产业链的知识库,具体包括:构建知识图谱、利用神经网络优化实体和关系;
6.根据...
【专利技术属性】
技术研发人员:王日红,
申请(专利权)人:上海大智慧财汇数据科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。