System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,尤其是涉及一种面向企业决策的开源数据分析方法、装置及介质。
技术介绍
1、网络开源情报的研究是近年来广泛关注的情报课题,情报分析人员可以通过公开来源获取更多对决策判断有价值的情报线索。例如cn110619125a公开了一种基于深度学习的市场情报大数据分析方法和装置,所述方法包括:获取第一语料库;根据所述第一语料库构建学习模型;根据预设的数据源收集范围和所述学习模型,收集对应的语句;判断所述语句是否有语料价值,如是将所述语句加入第一语料库,形成第二语料库;根据所述第二语料库进行数据分析,输出分析结果。但是,该方法仅通过开源数据来快速查询企业等相关商业数据,目标单一,所要分析的目的是确定的,因而能够通过关键词实现开源数据的筛选以实现分析目的。然而,在企业决策中,需要考虑各个方面,目前的用于企业智能决策分析的处理存在着信息单一的问题,没有一套科学的思维逻辑作为支撑,若仅采用关键词分析会导致分析方向单一,且不具备针对性,从而导致用于企业智能决策分析的处理的准确性低。
技术实现思路
1、本专利技术的目的是为了提供一种面向企业决策的开源数据分析方法、装置及介质,利用获取的开源情报指导企业决策,提高企业多元化决策评价结果的准确性。
2、本专利技术的目的可以通过以下技术方案来实现:
3、一种面向企业决策的开源数据分析方法,包括以下步骤:
4、获取企业数据作为第一样本数据,并依靠人工经验检索相关文献信息作为第二样本数据,根据第一样本数据和第
5、构建学习模型对第一语料库进行扫描,提取不同技术方向并构建每一技术方向的知识库,根据知识库生成每一技术方向的概要技术描述文本,并对概要技术描述文本进行向量编码;
6、获取开源数据文本并进行向量编码,对编码后的概要技术描述文本和开源数据文本进行相似度比较,根据相似度筛选开源数据文本中的相关文本,形成第二语料库;
7、结合第一语料库,对第二语料库进行数据分析,生成企业决策相关信息。
8、所述企业数据包括来自企业不同部门、项目和业务领域的企业目标管理行为数据、企业历史财务数据、企业场景问答数据、网络舆情数据。
9、所述提取的第一预料库中的实体词包括时间、人名、机构名、地址、号码、技术名词及产品名称。
10、所述提取第一语料库中的实体词和实体连接关系具体为:对第一语料库中每一条语句进行分词操作,利用实体提取算法进行实体词的提取,并利用同义词、翻译词、近义词和上下位词进行实体词消歧;若两个实体词出现在同一自然语句中,则该条自然语句作为连接这两个实体词的边,构成实体连接关系,对第一语料库中实体连接关系进行汇总。
11、所述构建学习模型对第一语料库进行扫描,提取不同技术方向并构建每一技术方向的知识库,根据知识库生成每一技术方向的概要技术描述文本具体为:
12、微调llama大模型,形成自然语言预训练的预测模型,利用预测模型对第一语料库进行扫描阅读,识别不同的技术方向,构建知识库;
13、利用生成式人工智能大模型的生成功能,通过阅读知识库内容,形成细分技术方向的概要技术描述文本。
14、所述对概要技术描述文本进行向量编码具体为:对bert模型进行微调后形成自然语言预训练的掩码模型,根据概要技术描述文本,利用掩码模型进行编码后形成文本向量。
15、筛选开源数据文本中的相关文本后,进行内容特征处理,自动提取标题、文本分类标签、文本摘要信息,形成第二语料库。
16、所述结合第一语料库,对第二语料库进行数据分析,生成企业决策相关信息具体为:
17、1)宏观分析:对第二语料库中的实体词进行分析,筛选高词频的热点关键词、词频突现强的新兴关键词,扫描整体技术重点;通过对比第一语料库和第二语料库的关键词,识别企业内外部的技术布局侧重点;
18、2)中观分析:根据宏观分析得到的技术重点,利用第二语料库中的文献信息,确定领域代表人才和机构;
19、3)微观分析:通过第二语料库中文献的共同发表或引用/被引用关系,基于中观分析中确定的领域代表人才和机构,采用社会网络法分析人才、机构间的合作网络和竞争网络,采用中心性度量的方法分析人才与机构在网络中的关联关系,根据关联关系确定网络节点活跃度,并提取网络中活跃度排名前n的节点,确定人才和机构竞合关系。
20、一种面向企业决策的开源数据分析装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现如上述所述的方法。
21、一种存储介质,其上存储有程序,所述程序被执行时实现如上述所述的方法。
22、与现有技术相比,本专利技术具有以下有益效果:
23、本专利技术利用企业已有数据和感兴趣的样本构建第一语料库,并通过对第一语料库的分析得到技术方向和概要技术描述文本,以实现开源数据中的有语料价值的文本筛选,实现细分领域的数据提取,从而根据筛选后的有效文本有针对性的分析,提供有效决策指导信息,提高企业多元化决策评价结果的准确性。
本文档来自技高网...【技术保护点】
1.一种面向企业决策的开源数据分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种面向企业决策的开源数据分析方法,其特征在于,所述企业数据包括来自企业不同部门、项目和业务领域的企业目标管理行为数据、企业历史财务数据、企业场景问答数据、网络舆情数据。
3.根据权利要求1所述的一种面向企业决策的开源数据分析方法,其特征在于,所述提取的第一预料库中的实体词包括时间、人名、机构名、地址、号码、技术名词及产品名称。
4.根据权利要求1所述的一种面向企业决策的开源数据分析方法,其特征在于,所述提取第一语料库中的实体词和实体连接关系具体为:对第一语料库中每一条语句进行分词操作,利用实体提取算法进行实体词的提取,并利用同义词、翻译词、近义词和上下位词进行实体词消歧;若两个实体词出现在同一自然语句中,则该条自然语句作为连接这两个实体词的边,构成实体连接关系,对第一语料库中实体连接关系进行汇总。
5.根据权利要求1所述的一种面向企业决策的开源数据分析方法,其特征在于,所述构建学习模型对第一语料库进行扫描,提取不同技术方向并构建每一技术方向
6.根据权利要求1所述的一种面向企业决策的开源数据分析方法,其特征在于,所述对概要技术描述文本进行向量编码具体为:对BERT模型进行微调后形成自然语言预训练的掩码模型,根据概要技术描述文本,利用掩码模型进行编码后形成文本向量。
7.根据权利要求1所述的一种面向企业决策的开源数据分析方法,其特征在于,筛选开源数据文本中的相关文本后,进行内容特征处理,自动提取标题、文本分类标签、文本摘要信息,形成第二语料库。
8.根据权利要求1所述的一种面向企业决策的开源数据分析方法,其特征在于,所述结合第一语料库,对第二语料库进行数据分析,生成企业决策相关信息具体为:
9.一种面向企业决策的开源数据分析装置,包括存储器、处理器,以及存储于所述存储器中的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的方法。
10.一种存储介质,其上存储有程序,其特征在于,所述程序被执行时实现如权利要求1-8中任一所述的方法。
...【技术特征摘要】
1.一种面向企业决策的开源数据分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种面向企业决策的开源数据分析方法,其特征在于,所述企业数据包括来自企业不同部门、项目和业务领域的企业目标管理行为数据、企业历史财务数据、企业场景问答数据、网络舆情数据。
3.根据权利要求1所述的一种面向企业决策的开源数据分析方法,其特征在于,所述提取的第一预料库中的实体词包括时间、人名、机构名、地址、号码、技术名词及产品名称。
4.根据权利要求1所述的一种面向企业决策的开源数据分析方法,其特征在于,所述提取第一语料库中的实体词和实体连接关系具体为:对第一语料库中每一条语句进行分词操作,利用实体提取算法进行实体词的提取,并利用同义词、翻译词、近义词和上下位词进行实体词消歧;若两个实体词出现在同一自然语句中,则该条自然语句作为连接这两个实体词的边,构成实体连接关系,对第一语料库中实体连接关系进行汇总。
5.根据权利要求1所述的一种面向企业决策的开源数据分析方法,其特征在于,所述构建学习模型对第一语料库进行扫描,提取不同技术...
【专利技术属性】
技术研发人员:李文清,齐晓曼,王琛,刘恋,华珉,赵三珊,
申请(专利权)人:国网上海市电力公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。