System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种数据萃取的系统及其方法,特别是企业知识库的萃取系统及其方法。
技术介绍
1、近年来,随着大数据分析的普及与蓬勃发展,各种大数据分析的应用便如雨后春笋般地涌现。然而,如何从大数据中精准获得有价值的信息一直是各家厂商亟欲解决的问题。
2、一般而言,传统的数据查找包含:完全比对、模糊比对等方式,举例来说,假设第一个字词为“地球人”、第二个字词为“地球”,使用完全比对时,这两个字词会被认为比对不符合,使用模糊比对时,这两个字词会被认为符合。然而,当字数一多时,无论是完全比对或模糊比对都很难再判断数据是否相似。因此,具有数据查找的精确度不佳的问题。
3、有鉴于此,便有厂商提出向量查询的技术手段,通过将文字向量化后,再根据相似距离来判断词句是否相同或相似。然而,当数据内容众多时,倘若直接将全部内容向量化,将大幅影响向量查询的精准度,故同样具有数据查找的精确度不佳的问题,
4、综上所述,可知现有技术在长期以来一直存在数据查找的精确度不佳的问题,因此实有必要提出改进的技术手段,来解决此问题。
技术实现思路
1、本专利技术揭露一种企业知识库的萃取系统及其方法。
2、首先,本专利技术揭露一种企业知识库的萃取系统,此系统包含:企业知识库及服务端装置。其中,企业知识库用以存储多笔专利原始数据(raw data),每一笔专利原始数据均与数学向量相对应;服务端装置通过网络连接企业知识库,所述服务端装置包含:非暂态计算机可读存储介质及硬件处理器。
3、另外,本专利技术还揭露一种企业知识库的萃取方法,其步骤包括:通过网络将企业知识库与服务端装置相互连接,其中,企业知识库存储多笔专利原始数据,每一笔专利原始数据均与数学向量相对应,所述服务端装置包含存储多个计算机可读指令的非暂态计算机可读存储介质以及执行所述计算机可读指令的硬件处理器;服务端装置接收关键字,并且将每一关键字分别向量化以生成相应的关键向量;服务端装置将所述关键向量传送至企业知识库以与所述数学向量进行比对,并且在比对符合时,自企业知识库接收与所述数学向量相应的所有专利原始数据以整合成查询结果;服务端装置输出查询结果,并且允许对此查询结果中的专利原始数据进行标记以生成相应的标记信息;服务端装置将所述标记信息向量化以生成相应的标记向量,并且将所述标记向量存储至企业知识库中,用以作为与相应的专利原始数据对应的数学向量;以及服务端装置重新将所述关键向量传送至企业知识库以与数学向量进行比对,用以再次整合成查询结果并进行输出。
4、本专利技术所揭露的系统与方法如上,与现有技术的差异在于本专利技术是通过服务端装置接收关键字,以及将关键字向量化,用以向企业知识库进行向量查询,并且允许对查询结果进行标记以产生新的向量并存储至企业知识库,接着重新根据向量化的关键字再次向企业知识库进行向量查询以获得更精准地数据。
5、通过上述的技术手段,本专利技术可以达到提高数据查找的精确度的技术功效。
本文档来自技高网...【技术保护点】
1.一种企业知识库的萃取系统,所述系统包含:
2.如权利要求1所述的企业知识库的萃取系统,其中所述服务端装置还包含接收至少一对话信息,并且根据自然语言处理技术自所述对话信息中获取出所述关键字,以及存储所述对话信息及所述关键字或两者中的任一个。
3.如权利要求1所述的企业知识库的萃取系统,其中所述查询结果允许以自动及人为至少其中之一的方式进行标记,并且根据自然语言处理技术选择近似词汇作为所述标记信息。
4.如权利要求1所述的企业知识库的萃取系统,其中所述专利原始数据包含案件状态,当再次整合成所述查询结果时,在所述查询结果中嵌入与所述专利原始数据相应的所述案件状态。
5.如权利要求1所述的企业知识库的萃取系统,其中所述专利原始数据包含专利技术人信息,当再次整合成所述查询结果时,所述服务端装置自所述企业知识库中筛选出相同所述专利技术人信息的所有所述专利原始数据以建立关联推荐,并且将所述关联推荐嵌入再次整合成的所述查询结果。
6.一种应用在企业知识库的萃取方法,其步骤包括:
7.如权利要求6所述的应用在企业知识库的萃
8.如权利要求6所述的应用在企业知识库的萃取方法,其中所述查询结果允许以自动及人为至少其中之一的方式进行标记,并且根据自然语言处理技术选择近似词汇作为所述标记信息。
9.如权利要求6所述的应用在企业知识库的萃取方法,其中所述专利原始数据包含案件状态,当再次整合成所述查询结果时,在所述查询结果中嵌入与所述专利原始数据相应的所述案件状态。
10.如权利要求6所述的应用在企业知识库的萃取方法,其中所述专利原始数据包含专利技术人信息,当再次整合成所述查询结果时,所述服务端装置自所述企业知识库中筛选出相同所述专利技术人信息的所有所述专利原始数据以建立关联推荐,并且将所述关联推荐嵌入再次整合成的所述查询结果。
...【技术特征摘要】
1.一种企业知识库的萃取系统,所述系统包含:
2.如权利要求1所述的企业知识库的萃取系统,其中所述服务端装置还包含接收至少一对话信息,并且根据自然语言处理技术自所述对话信息中获取出所述关键字,以及存储所述对话信息及所述关键字或两者中的任一个。
3.如权利要求1所述的企业知识库的萃取系统,其中所述查询结果允许以自动及人为至少其中之一的方式进行标记,并且根据自然语言处理技术选择近似词汇作为所述标记信息。
4.如权利要求1所述的企业知识库的萃取系统,其中所述专利原始数据包含案件状态,当再次整合成所述查询结果时,在所述查询结果中嵌入与所述专利原始数据相应的所述案件状态。
5.如权利要求1所述的企业知识库的萃取系统,其中所述专利原始数据包含发明人信息,当再次整合成所述查询结果时,所述服务端装置自所述企业知识库中筛选出相同所述发明人信息的所有所述专利原始数据以建立关联推荐,并且将所述关联推荐嵌入再次整合成的所述查询结果。
6.一种...
【专利技术属性】
技术研发人员:陆铭,姜秋龙,陈彦祥,邱柏硕,
申请(专利权)人:上海顺诠科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。