The invention relates to a unified logical retrieval method of ancient documents based on index relation, in particular, that the text string retrieved from text retrieval extracts any logical relation contained in the text retrieval, so it belongs to the literature retrieval technology field. The present invention includes: to construct index system; statistical number of fixed sentence length sentences; the corresponding rules of logic relation; the input text string extracting logic contained in them; the combination of the rules; results show that the output of more than six technical steps. This method can satisfy the user's different retrieval requirements based on the understanding of logical relationship and greatly improve the user experience.
【技术实现步骤摘要】
一种基于索引关系的古文献统一逻辑检索方法
本专利技术涉及一种基于索引关系的古文献统一逻辑检索方法,属于文献检索
技术介绍
古文献数据是一种海量信息的存储,如何能够通过合理的快速的检索获得满足用户需要的信息,并且通过使用计算机的方式自动的对古文献的不同对象进行研究,发现一些变化,进而获取一些有价值的知识。因为,相对于不同国家的不同文化,语言也存在很大的差异,因此,设置特定的针对中国的古文献的检索至关重要,为知识发现奠定基础。现有的有关检索方面的专利多集中针对互联网上的信息快速检索,而针对古文献的检索研究比较少;例如申请公布号:CN105989030A,申请者提出的一种文本检索检索方法和装置;在该专利中通过对用户输入的文本进行分词划分,显示各个关键词,然后再由用户去选择其中的关键词进行检索,仅实现对互联网上的信息进行快速检索,而不能针对古文献的快速检索以及对各种对象进行研究分析。例如申请公布号:CN105354325A,申请者提出的一种文献检索及分析系统,该专利通过设置基本检索模块,该检索模块是在结构化的数据库中进行检索;设置拓展检索模块,该检索模块是根据用 ...
【技术保护点】
一种基于索引关系的古文献统一逻辑检索方法,其特征在于:包括下述步骤:1)构建索引系统:读取文本;建立第一索引表,第一索引表包括文档编号及该文档编号对应的文档名称;建立第二索引表,第二索引表包括所有文档中不同的字符及该字符出现在哪些文档中;建立第三索引表,第三索引表包括每个文档中的所有不同的字符及该字符的位置;把第一索引表、第二索引表、第三索引表写入索引文件中进行保存;2)统计固定句长的句子出现的次数:读取第三索引表;因句号、问号、感叹号表示句末的停顿,通过读取第三索引表,能够得到每个文档中句号、问号、感叹号的索引信息,分别记为A、B、C,其中A、B、C中的对应关系为:A[a ...
【技术特征摘要】
1.一种基于索引关系的古文献统一逻辑检索方法,其特征在于:包括下述步骤:1)构建索引系统:读取文本;建立第一索引表,第一索引表包括文档编号及该文档编号对应的文档名称;建立第二索引表,第二索引表包括所有文档中不同的字符及该字符出现在哪些文档中;建立第三索引表,第三索引表包括每个文档中的所有不同的字符及该字符的位置;把第一索引表、第二索引表、第三索引表写入索引文件中进行保存;2)统计固定句长的句子出现的次数:读取第三索引表;因句号、问号、感叹号表示句末的停顿,通过读取第三索引表,能够得到每个文档中句号、问号、感叹号的索引信息,分别记为A、B、C,其中A、B、C中的对应关系为:A[a1,a2,a3······an]、B[b1,b2,b3······bn]、C[c1,c2,c3······cn],Α:a1<a2<a3<······<an、B:b1<b2<b3<······<bn、C:c1<c2<c3<······<cn且(a1···an)、(b1···bn)、(c1···cn)互不相等,A、B、C分别代表着标点符号句号、问号、感叹号,a1-an表示句号在第三索引中出现的位置,b1-bn表示问号在第三索引表中出现的位置,c1-cn表示感叹号在第三索引表中出现的位置;将已经排好序的A、B、C进行合并,定义D、E集合:首先对A、B进行合并,每个序列都维护一个位置指针,并让两个指针同时在两个列表中后移,分别取两个序列的开头a1与b1进行比较,如果a1<b1,则D[a1,b1],指针分别向后移动一位,取a2与b2进行比较,如果b2<a2,则D[a1,b1,b2],将小的那个数组所对应的指针后移一位即b3与a2进行对比,按照从小到大的顺序进行排序,直到A、B两个序列中的数都取完,再将序列C中的数与序列D中的数,按照上述原则进行再次比较,存入集合E中,这样将A、B、C合并为一个按照大小顺序排列的集合E;集合E[e1,e2,e3······en]其中E:e1<e2<e3<······<en,定义集合F,F为:F[e2-e1,e3-e2,e4-e3,······,en-e(n-1)];统计集合F中相同数值出现的次数;3)对逻辑关系建立相对应规则:建立交集,对于字符x及字符y,其中x的区间集合:{x1∈{a1<x1<b1},x2∈{a2<x2<b2},x3∈{a3<x3<b3},······,xn∈{an<xn<bn}}其中y的区间集合:{y1∈{c1<y1<d1},y2∈{c2<y2<d2},y3∈{c3<y3<d3},······,yn∈{cn<yn<dn}}设a2=c2,b2=d2;a3=c3,b3=d3;a5=c5,b5=d5则x∩y={{a2<x<b2},{a3<x<b3},{a5<x<b5}}或者x∩y={{c2<y<d2},{c3<y<d3},{c5<y<d5}};交集的交集:已知建立的交集,z∈{y2-x2,y3-x3,y5-x5}且y2-x2=y5-x5=c,其中z表示字符...
【专利技术属性】
技术研发人员:邵玉斌,朱小妮,杨美菊,王逍翔,曹云,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。