一种超大规模数据自动化比对分析处理方法及系统技术方案

技术编号：34177026 阅读：73 留言：0更新日期：2022-07-17 12:10

本发明专利技术涉及数据比对分析技术领域，提出了一种超大规模数据自动化比对分析处理方法及系统，包括输入目标文献，对目标文献进行分类，得到目标文献库，获取目标文献库的目标虚拟向量值；计算目标文献和目标文献库中每个文献的向量；计算所述目标向量到所述目标虚拟向量值的向量差D1，计算所述目标文献库中每个文献的向量到所述目标虚拟向量值的向量差D2；选择向量差D2接近所述向量差D1的文献作为所述目标文献的第一近似文献。使用向量式索引的方式进行了数据索引，其索引速度较传统文本索引的速度有数量级的提升，且检索结果更利于使用统计学公式进行后续数据挖掘。学公式进行后续数据挖掘。

全部详细技术资料下载

【技术实现步骤摘要】
一种超大规模数据自动化比对分析处理方法及系统

[0001]本专利技术涉及比对分析
，具体的，涉及一种超大规模数据自动化比对分析处理方法及系统。

技术介绍

[0002]专利是知识产权的一部分，在专利申请的过程中，每个专利审核员都需要对现存的所有专利和历史已发表过的重要文献进行查询，并比较这些已经发布过的内容中，是否有和专利申请人所申请的专利冲突之处。这个过程对专利审核人员的困扰很大。专利审核人员不可能逐字逐句去阅读各种专业文献和历史专利内容。并且很多专利晦涩难懂，人为的阅读具有理解上的极大主观性。除此之外，更大的困难在于历史数据的数量级。现存的专利可以比对的文献数据量级在兆亿级别，属于超大规模数据。要完成这种数量级的数据比对，即使专利审核人员具备自身过硬的专业知识，也没有能力对大量的查询结果进行逐句阅读。
[0003]现有的系统不仅需要专利审核人员花费大量的时间比对文献，还容易造成遗漏和误解。目前的系统对专利的查询主要基于传统的文本关键字组合索引技术，结合句法分析和语义理解技术等数据挖掘算法。在面对专利或特定学科...

【技术保护点】

【技术特征摘要】
1.一种超大规模数据自动化比对分析处理方法，其特征在于，包括如下步骤，获得多个文献库，计算每个文献库的虚拟向量值；输入目标文献，对目标文献进行分类，得到目标文献对应的文献库，作为目标文献库；所述目标文献库的虚拟向量值作为目标虚拟向量值；计算目标文献库中每个文献的向量，所述目标文献库包括目标文献和比对文献组，所述比对文献组为目标文献库中除目标文献之外的文献；计算所述目标文献的向量到所述目标虚拟向量值的向量差D1，计算所述比对文献组中每个文献的向量到所述目标虚拟向量值的向量差D2；计算向量差D2与向量差D1之间的距离，选择距离小于设定阈值的向量差D2对应的文献作为所述目标文献的第一近似文献。2.根据权利要求1所述的一种超大规模数据自动化比对分析处理方法，其特征在于，所述计算每个文献库的虚拟向量值，包括：对任一文献库，将该文献库内每一文献进行分词，并计算每一词汇在该文献出现的频率；计算每一文献内频率高于设定阈值的多个词汇的词向量，并计算词向量的均值，得到向量中心点Mi，i∈(1,2,3,
……
)；计算该文献库所有文献的向量中心点均值sum(Mi)/i，作为该文献库的虚拟向量值。3.根据权利要求1所述的一种超大规模数据自动化比对分析处理方法及系统，其特征在于，所述计算目标文献库中每个文献的向量，包括：对任一文献进行分词，将非专业词汇作为停用词；选择概率和权重高于设定阈值的多个词汇进行词向量计算，得到多个词汇的词向量；计算所述多个词汇的词向量到原点的欧式距离之和，作为所述目标文献库中每个文献的向量。4.根据权利要求1所述的一种超大规模数据自动化比对分析处理方法，其特征在于，还包括如下步骤：将所述第一近似文献输入分子筛模型，设定粗颗粒筛选条件a；输出可能数据集合R1和不可能数据集合R2；将所述可能数据集合R1中的第一近似文献输入分子筛模型，设定细颗粒筛选条件b；输出可能数据集合更新R1和不可能数据集合R3；合并不可能数据集合R2和不可能数据集合R3作为备用数据集合R4，并将更新后的可能数据集合R1作为结果集合R；对所述结果集合R进行数据分析，找到类似文献则结束任务，未找到类似文献则在备用数据集合R4中继续查找，直到找到类似文献。5.一种超大规模数据自动化比对分析处理系统，其特征在于，包括，第一计算模块，用于获得多个文献库，计算每个文献库的虚拟向量值；第一处理模块，用于输入目标文献，对目标文献进行分类，得到目标文献对应的文献库，作为目标文献库，所述目标文献库的虚拟向量值作...

【专利技术属性】
技术研发人员：李庆利，曹广学，阴玉敏，雷怀兴，韩金水，
申请(专利权)人：求实科技集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人