当前位置: 首页 > 专利查询>王毅龙专利>正文

一种文献数据处理、检索方法和装置制造方法及图纸

技术编号:33335978 阅读:19 留言:0更新日期:2022-05-08 09:18
本发明专利技术属于数据处理领域,公开了一种文献数据处理、检索方法和装置,本发明专利技术先确定待处理文献的主题,对确定后的主题进行提取,生成一阶视点文本并存储;对生成的一阶视点文本进行编辑,生成二阶视点文本并存储;对生成的二阶视点文本进行标引,生成三阶视点文本并存储;通过对存储的各视点文本进行检索,使得人们可以在不阅读整篇文献的情况下,能够迅速掌握和理解所述的文献内容,快速地准确地确定是否是目标专利文献、学术文献或技术文献。学术文献或技术文献。学术文献或技术文献。

【技术实现步骤摘要】
一种文献数据处理、检索方法和装置


[0001]本专利技术属于数据处理领域,具体涉及一种文献数据处理、检索方法和装置。

技术介绍

[0002]随着科学技术的不断发展,各种专利文献、学术文献或技术文献越来越多,尤其是,代表先进技术的专利文献也是越来越多,现在已经有多个检索平台,能够提供多个检索手段对数据库内的专利文献、非专利文献进行检索。
[0003]但是目前的检索手段以(排名不分先后)“索意互动(北京)信息技术有限公司”、
“ꢀ
天启黑马信息科技(北京)有限公司”为代表的智能检索或语义检索,其基本是对文献本身的关键词、分类号、著录项目等基础的数据格式的加工与处理,以及索引词的加工、算法的优化,但该方式存在一个客观的瓶颈,即所谓的智能检索或语义检索,所依据的数据库并不是深加工的数据库,而是最基础的数据格式的加工,或者说数据库的在深加工层面上几乎为零,正是这个客观瓶颈的存在,导致无论如何通过AI技术不断优化算法,也都会存在短板的根本客观原因。
[0004]以数据深加工为代表的“Derwent Information Limited(德温特公司)”,是基于对文献标题、摘要、创新点等数据的深加工。申请人为:Derwent Information Limited,专利标题为:Patent classification displaying method and apparatus,公开号为:EP1213665A2的专利文件,提供了一种提高专利检索效率的方式和显示专利文献分类的方法,该方法利用F-terms (File Forming Terms) 将专利从多种角度进行分类,可以在不阅读说明书的情况下,能够准确迅速地掌握多于“摘要”的专利文献的内容。
[0005]但说明书是包含有关理解、实现专利所需的
技术实现思路
,在专利数据深加工方面,对专利说明书的加工以及更深层次的挖掘一直是项空白。

技术实现思路

[0006]鉴于上述问题,本专利技术提供一种文献数据处理、检索方法和装置,本方法可适用于专利文献、学术文献和技术文献等,本方法通过在文献中取多类主题,将所述的多类主题进行数据深加工处理。使得人们可以在不阅读整篇文献的情况下,能够迅速掌握和理解所述的文献内容,快速地准确地确定是否是目标专利文献、学术文献或技术文献。
[0007]本专利技术提供一种文献数据处理、检索方法和装置,所述的主题分别为:第一主题:文献要解决的技术问题;第二主题:解决所述技术问题所采用的技术方案;第三主题:解决所述技术问题所产生的技术效果;第四主题:文献要解决的技术问题的
;根据所述的第一主题,从文献中提取为第一组第一视点文本;根据所述的第二主题,从文献中提取为第二组第一视点文本;
根据所述的第三主题,从文献中提取为第三组第一视点文本;根据所述的第四主题,从文献中提取为第四组第一视点文本;存储从文献中提取的第一组第一视点文本;存储从文献中提取的第二组第一视点文本;存储从文献中提取的第三组第一视点文本;存储从文献中提取的第四组第一视点文本;根据第一组第一视点文本、第二组第一视点文本、第三组第一视点文本或第四组第一视点文本,或其任意两项或两项以上的组合,对文献进行检索。
[0008]进一步的,编辑提取的第一组第一视点文本,生成第一组第二视点文本;编辑提取的第二组第一视点文本,生成第二组第二视点文本;编辑提取的第三组第一视点文本,生成第三组第二视点文本;编辑提取的第四组第一视点文本,生成第四组第二视点文本;存储编辑后的第一组第二视点文本;存储编辑后的第二组第二视点文本;存储编辑后的第三组第二视点文本;存储编辑后的第四组第二视点文本;根据第一组第二视点文本、第二组第二视点文本、第三组第二视点文本或第四组第二视点文本,或其任意两项或两项以上的组合,对文献进行检索。
[0009]更进一步的,标引编辑后的第一组第二视点文本,生成第一组第三视点文本;标引编辑后的第二组第二视点文本,生成第二组第三视点文本;标引编辑后的第三组第二视点文本,生成第三组第三视点文本;标引编辑后的第四组第二视点文本,生成第四组第三视点文本;存储标引后的第一组第三视点文本;存储标引后的第二组第三视点文本;存储标引后的第三组第三视点文本;存储标引后的第四组第三视点文本;根据第一组第三视点文本、第二组第三视点文本、第三组第三视点文本或第四组第三视点文本,或其任意两项或两项以上的组合,对文献进行检索。
[0010]本专利技术提供一种文献数据处理方法,包括:待处理文献101;将上述待处理文献101输入到视点提取模型201中;经视点提取模型201,提取得到第一组第一视点文本、第二组第一视点文本、第三组第一视点文本和第四组第一视点文本;所述的第一组第一视点文本、第二组第一视点文本、第三组第一视点文本和第四组第一视点文本分别存储到对应的存储装置102A、存储装置102B、存储装置102C和存储装置102D中;将存储于存储装置102A、存储装置102B、存储装置102C和存储装置102D中的所述第一
组第一视点文本、第二组第一视点文本、第三组第一视点文本和第四组第一视点文本分别输入到对应的视点编辑模型202A、视点编辑模型202B、视点编辑模型202C和视点编辑模型202D中进行编辑,得到第一组第二视点文本、第二组第二视点文本、第三组第二视点文本和第四组第二视点文本;所述的第一组第二视点文本、第二组第二视点文本、第三组第二视点文本和第四组第二视点文本分别存储到对应的存储装置103A、存储装置103B、存储装置103C和存储装置103D中;将存储于存储装置103B、存储装置103C和存储装置103D中的所述第一组第二视点文本、第二组第二视点文本、第三组第二视点文本和第四组第二视点文本分别输入到对应的视点标引模型203A、视点标引模型203B、视点标引模型203C和视点标引模型203D中进行标引,得到第一组第三视点文本、第二组第三视点文本、第三组第三视点文本和第四组第三视点文本;所述第一组第三视点文本、第二组第三视点文本、第三组第三视点文本和第四组第三视点文本分别存储到对应的存储装置104A、存储装置104B、存储装置104C和存储装置104D中。
[0011]本专利技术提供一种文献数据处理装置,包括:第一处理单元、第二处理单元和第三处理单元;所述的第一处理单元包括:待处理文献101、视点提取模型201、处理器10、存储器11、存储装置102A、存储装置102B、存储装置102C、存储装置102D;所述的第二处理单元包括:视点编辑模型202A、视点编辑模型202B、视点编辑模型202C、视点编辑模型202D、处理器10、存储器11、存储装置103A、存储装置103B、存储装置103C、存储装置103D;所述的第三处理单元包括:视点标引模型203A、视点标引模型203B、视点标引模型203C、视点标引模型203D、处理器10、存储器11、存储装置104A、存储装置104B、存储装置104C和存储装置104D。
[0012]第一处理单元用于,根据所述的第一主题,从本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文献数据处理方法,包括待处理文献(101),其特征在于,所述待处理文献(101),包括第一主题:文献要解决的技术问题;所述待处理文献(101),包括第二主题:解决所述技术问题所采用的技术方案;所述待处理文献(101),包括第三主题:解决所述技术问题所产生的技术效果;所述待处理文献(101),包括第四主题:文献要解决的技术问题的技术领域;根据所述待处理文献(101)的第一主题,提取为第一组第一视点文本;根据所述待处理文献(101)的第二主题,提取为第二组第一视点文本;根据所述待处理文献(101)的第三主题,提取为第三组第一视点文本;根据所述待处理文献(101)的第四主题,提取为第四组第一视点文本。2.根据权利要求1所述的一种文献数据处理方法,其特征在于,编辑所述提取后的第一组第一视点文本,生成第一组第二视点文本;编辑所述提取后的第二组第一视点文本,生成第二组第二视点文本;编辑所述提取后的第三组第一视点文本,生成第三组第二视点文本;编辑所述提取后的第四组第一视点文本,生成第四组第二视点文本。3.根据权利要求2所述的一种文献数据处理方法,其特征在于,标引所述编辑后的第一组第二视点文本,生成第一组第三视点文本;标引所述编辑后的第二组第二视点文本,生成第二组第三视点文本;标引所述编辑后的第三组第二视点文本,生成第三组第三视点文本;标引所述编辑后的第四组第二视点文本,生成第四组第三视点文本。4.根据权利要求1所述的一种文献数据处理方法,其特征在于,存储所述提取的第一组第一视点文本;存储所述提取的第二组第一视点文本;存储所述提取的第三组第一视点文本;存储所述提取的第四组第一视点文本。5.根据权利要求2所述的一种文献数据处理方法,其特征在于,存储所述编辑后的第一组第二视点文本;存储所述编辑后的第二组第二视点文本;存储所述编辑后的第三组第二视点文本;存储所述编辑后的第四组第二视点文本。6.根据权利要求3所述的一种文献数据处理方法,其特征在于,存储所述标引后的第一组第三视点文本;存储所述标引后的第二组第三视点文本;存储所述标引后的第三组第三视点文本;存储所述标引后的第四组第三视点文本。7.一种文献检索方法,根据权利要求1-6任一项权利要求中的第一组第一视点文本、第二组第一视点文本、第三组第一视点文本或第四组第一视点文本,或其任意两项或两项以上的组合进行文献的检索。8.一种文献检索方法,根据权利要求1-6任一项权利要求中的第一组第二视点文本、第二组第二视点文本、第三组第二视点文本或第四组第二视点文本,或其任意两项或两项以
上的组合进行文献的检索。9.一种文献检索方法,根据权利要求1-6任一项权利要求中的第一组第三视点文本、第二组第三视点文本、第三组第三视点文本或第四组第三视点文本,或其任意两项或两项以上的组合进行文献的检索。10.一种文献数据处理装置,包括:第一处理单元、第二处理单元和第三处理单元;第一处理单元包括:待处理文献(101)、视点提取模型(201)、处理器(10)、存储器(11)、存储装置(102A)、存储装置(102B)、存储装置(102C)、存储装置(102D);第二处理单元包括...

【专利技术属性】
技术研发人员:王毅龙
申请(专利权)人:王毅龙
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1