一种基于索引关系的古文献统一逻辑检索方法技术

技术编号:16819133 阅读:57 留言:0更新日期:2017-12-16 12:34
本发明专利技术涉及一种基于索引关系的古文献统一逻辑检索方法,具体说法是文本检索中所输入的文本串提取出所包含的任意逻辑关系进行逻辑组合,属于文献检索技术领域。本发明专利技术具体包括:构建索引系统;统计固定句长的句子出现的次数;对逻辑关系建立相对应规则;对输入的文本串提取其中所包含的逻辑关系;对其中的规则进行组合;结果显示输出以上六个技术步骤。该方法能够基于逻辑关系的理解满足用户不同的检索需求,极大的提升了用户体验。

A unified logical retrieval method of ancient documents based on index relation

The invention relates to a unified logical retrieval method of ancient documents based on index relation, in particular, that the text string retrieved from text retrieval extracts any logical relation contained in the text retrieval, so it belongs to the literature retrieval technology field. The present invention includes: to construct index system; statistical number of fixed sentence length sentences; the corresponding rules of logic relation; the input text string extracting logic contained in them; the combination of the rules; results show that the output of more than six technical steps. This method can satisfy the user's different retrieval requirements based on the understanding of logical relationship and greatly improve the user experience.

【技术实现步骤摘要】
一种基于索引关系的古文献统一逻辑检索方法
本专利技术涉及一种基于索引关系的古文献统一逻辑检索方法,属于文献检索

技术介绍
古文献数据是一种海量信息的存储,如何能够通过合理的快速的检索获得满足用户需要的信息,并且通过使用计算机的方式自动的对古文献的不同对象进行研究,发现一些变化,进而获取一些有价值的知识。因为,相对于不同国家的不同文化,语言也存在很大的差异,因此,设置特定的针对中国的古文献的检索至关重要,为知识发现奠定基础。现有的有关检索方面的专利多集中针对互联网上的信息快速检索,而针对古文献的检索研究比较少;例如申请公布号:CN105989030A,申请者提出的一种文本检索检索方法和装置;在该专利中通过对用户输入的文本进行分词划分,显示各个关键词,然后再由用户去选择其中的关键词进行检索,仅实现对互联网上的信息进行快速检索,而不能针对古文献的快速检索以及对各种对象进行研究分析。例如申请公布号:CN105354325A,申请者提出的一种文献检索及分析系统,该专利通过设置基本检索模块,该检索模块是在结构化的数据库中进行检索;设置拓展检索模块,该检索模块是根据用户请求结合自然语言处本文档来自技高网...
一种基于索引关系的古文献统一逻辑检索方法

【技术保护点】
一种基于索引关系的古文献统一逻辑检索方法,其特征在于:包括下述步骤:1)构建索引系统:读取文本;建立第一索引表,第一索引表包括文档编号及该文档编号对应的文档名称;建立第二索引表,第二索引表包括所有文档中不同的字符及该字符出现在哪些文档中;建立第三索引表,第三索引表包括每个文档中的所有不同的字符及该字符的位置;把第一索引表、第二索引表、第三索引表写入索引文件中进行保存;2)统计固定句长的句子出现的次数:读取第三索引表;因句号、问号、感叹号表示句末的停顿,通过读取第三索引表,能够得到每个文档中句号、问号、感叹号的索引信息,分别记为A、B、C,其中A、B、C中的对应关系为:A[a1,a2,a3···...

【技术特征摘要】
1.一种基于索引关系的古文献统一逻辑检索方法,其特征在于:包括下述步骤:1)构建索引系统:读取文本;建立第一索引表,第一索引表包括文档编号及该文档编号对应的文档名称;建立第二索引表,第二索引表包括所有文档中不同的字符及该字符出现在哪些文档中;建立第三索引表,第三索引表包括每个文档中的所有不同的字符及该字符的位置;把第一索引表、第二索引表、第三索引表写入索引文件中进行保存;2)统计固定句长的句子出现的次数:读取第三索引表;因句号、问号、感叹号表示句末的停顿,通过读取第三索引表,能够得到每个文档中句号、问号、感叹号的索引信息,分别记为A、B、C,其中A、B、C中的对应关系为:A[a1,a2,a3······an]、B[b1,b2,b3······bn]、C[c1,c2,c3······cn],Α:a1<a2<a3<······<an、B:b1<b2<b3<······<bn、C:c1<c2<c3<······<cn且(a1···an)、(b1···bn)、(c1···cn)互不相等,A、B、C分别代表着标点符号句号、问号、感叹号,a1-an表示句号在第三索引中出现的位置,b1-bn表示问号在第三索引表中出现的位置,c1-cn表示感叹号在第三索引表中出现的位置;将已经排好序的A、B、C进行合并,定义D、E集合:首先对A、B进行合并,每个序列都维护一个位置指针,并让两个指针同时在两个列表中后移,分别取两个序列的开头a1与b1进行比较,如果a1<b1,则D[a1,b1],指针分别向后移动一位,取a2与b2进行比较,如果b2<a2,则D[a1,b1,b2],将小的那个数组所对应的指针后移一位即b3与a2进行对比,按照从小到大的顺序进行排序,直到A、B两个序列中的数都取完,再将序列C中的数与序列D中的数,按照上述原则进行再次比较,存入集合E中,这样将A、B、C合并为一个按照大小顺序排列的集合E;集合E[e1,e2,e3······en]其中E:e1<e2<e3<······<en,定义集合F,F为:F[e2-e1,e3-e2,e4-e3,······,en-e(n-1)];统计集合F中相同数值出现的次数;3)对逻辑关系建立相对应规则:建立交集,对于字符x及字符y,其中x的区间集合:{x1∈{a1<x1<b1},x2∈{a2<x2<b2},x3∈{a3<x3<b3},······,xn∈{an<xn<bn}}其中y的区间集合:{y1∈{c1<y1<d1},y2∈{c2<y2<d2},y3∈{c3<y3<d3},······,yn∈{cn<yn<dn}}设a2=c2,b2=d2;a3=c3,b3=d3;a5=c5,b5=d5则x∩y={{a2<x<b2},{a3<x<b3},{a5<x<b5}}或者x∩y={{c2<y<d2},{c3<y<d3},{c5<y<d5}};交集的交集:已知建立的交集,z∈{y2-x2,y3-x3,y5-x5}且y2-x2=y5-x5=c,其中z表示字符...

【专利技术属性】
技术研发人员:邵玉斌朱小妮杨美菊王逍翔曹云
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1