一种基于自定义语义规则的索书号的比较方法及系统技术方案

技术编号:38005709 阅读:10 留言:0更新日期:2023-06-30 10:21
本发明专利技术涉及图书分类技术领域,尤其涉及一种基于自定义语义规则的索书号的比较方法及系统,包括构建图书与图书索书号数据集;根据索书号规则构建语义分隔规则,并根据语义分隔规则将索书号分割为若干段;设定索书号的每个段的语义规则;将待比较的两个索书号按照段优先级进行按值或块逐段比较,确定两个索书号的先后顺序。本发明专利技术解决了当前索书号比较时采用单一的字符串逐字符比较时排序效率低和语义丢失问题。丢失问题。丢失问题。

【技术实现步骤摘要】
一种基于自定义语义规则的索书号的比较方法及系统


[0001]本专利技术涉及图书分类
,尤其涉及一种基于自定义语义规则的索书号的比较方法及系统。

技术介绍

[0002]图书馆将图书与书架(层架)信息进行绑定的工作称为图书分配,图书分配是新书上架、馆藏图书理架、读者查书等图书馆日常业务的重要前提。
[0003]现有图书馆通过人工方式进行排序,缺点非常明显,第一,过分依赖人工经验且具有随意性,经常会根据图书馆员的个人喜好来设定层架;第二,当图书乱架之后进行理架的过程中缺乏明确标准;第三,工作量巨大,大型图书馆动辄几百万册图书人工方式耗时耗力巨大;第四,无法在图书真实上架或理架之前对全馆图书的层架分配信息进行预测,经常需要在进行大量工作后进行返工调整且调整效果不尽人意。
[0004]也有图书馆利用计算机技术辅助按逐字符比较,但存在问题主要有:
[0005]第一、某些图书馆索书号长度较长且存在一些特殊字符,导致逐字符比较效率低;第二、首书的确定依然严重依赖人的经验,当首书确定不精确时会出现大量图书被分配到同一层架远远超出物理层架的容量。

技术实现思路

[0006]针对现有方法的不足,本专利技术通过利用自定义语义解析的索书号比较排序,解决了当前索书号比较时采用单一的字符串逐字符比较时排序效率低和语义丢失问题。
[0007]本专利技术所采用的技术方案是:一种基于自定义语义规则的索书号的比较方法包括以下步骤:
[0008]步骤一、构建图书与图书索书号数据集;
[0009]步骤二、根据索书号规则构建语义分隔规则,并根据语义分隔规则将索书号分割为若干段;
[0010]进一步的,语义分隔规则是利用正则表达式将索书号分割为若干段。
[0011]步骤三、设定索书号的每个段的语义规则,并写入数据库中;
[0012]进一步的,段语义规则包括:段比较类型、段优先级、段比较深度,段比较类型是设定待比较段按块还是按值比较;段优先级是设定若干段的比较先后顺序;段比较深度是设置段比较的最大长度。
[0013]进一步的,还包括:强制码值转换、段字符集和转义字典,强制码值转换是自定义ascii先后顺序;段字符集设定待比较段的字符范围;转义字典是将特定字符映射为标准字符。
[0014]步骤四、将待比较的两个索书号按照段优先级进行按值或块逐段比较,确定两个索书号的先后顺序。
[0015]进一步的,步骤四还包括:比较两个索书号的段总数,如果索书号的段有缺失,输
出两个索书号的前后顺序。
[0016]进一步的,值比较的规则为:将待比较索书号对应段的值进行数值大小比较,输出两个索书号的前后顺序。
[0017]进一步的,还包括:值比较时设置进行转义和设置段比较深度。
[0018]进一步的,块比较的规则为:首先判断待比较段的长度是否相同,如果长度相同则直接输出两个索书号的先后顺序;
[0019]如果长度相同,且段内容不同时将待比较段进行二分,分别比较二分后的的前半、后半部分,当前半部分相同后半部分不同时再对后半部分进行二分,依次循环直至段后半部分只有一位时结束,并根据位的大小输出索书号先后顺序;
[0020]进一步的,如果长度相同,且段内容相同,则结束段比较,进行下一个优先级的段比较。
[0021]基于自定义语义规则的索书号的比较方法的系统,包括:
[0022]预处理器:根据索书号规则构建语义分隔规则,并根据语义分隔规则将索书号分割为若干段;
[0023]语义规则解析器:设置待比较段的段比较类型、段优先级、段比较深度、强制码值转换、段字符集和转义字典;
[0024]段比较器:将待比较段进行按值和块比较,输出索书号先后顺序。
[0025]本专利技术的有益效果:
[0026]1、通过自定义语义分隔规则,适配所有图书馆个性化的编目规则;
[0027]2、解决当前索书号比较时采用单一的字符串逐字符比较而失去语义的问题;
[0028]3、将逐字符比对改为本专利技术的块比较,提高比较效率,将百万册图书索书号比对耗时降低到数十秒,提高了比较效率;
[0029]4、用脚本文件来描述自定义索书号编目语义规则的方法,具有灵活性好、兼容性高、计算机可理解与执行的特点;
[0030]5、可广泛用于图书馆、档案馆使用的排架、上架、理架、定位等软件系统的开发。
附图说明
[0031]图1是本专利技术的一种基于自定义语义规则的索书号的比较方法流程图;
[0032]图2是本专利技术的段比较流程图;
[0033]图3是本专利技术的基于语义规则的索书号的分类系统框图;
[0034]图4是本专利技术的块比较示意图。
具体实施方式
[0035]下面结合附图和实施例对本专利技术作进一步说明,此图为简化的示意图,仅以示意方式说明本专利技术的基本结构,因此其仅显示与本专利技术有关的构成。
[0036]如图1、2所示,一种基于自定义语义规则的索书号的比较方法,包括以下步骤:
[0037]步骤一、构建图书与图书索书号数据集,并写入数据库;
[0038]例如某图书馆数据库的图书索书号如下:
[0039]表1图书名与图书索书号对应表:
[0040]图书名索书号计算机网络与战争(上)TP532.2:E23/CD521:

飞行器轨迹控制及其应用TP4320.2:E23/CD521:

网络经济学TP532.3:F23/CD6:
①……
网络营销实务(上)TP532.2:F23/UD521:

网络营销实务(下)TP532.2:F23/CD521:

[0041]步骤二、索书号预处理:根据索书号规则构建语义分隔规则,并根据语义分隔规则将索书号分割为若干段;
[0042]语义分隔规则是图书馆自定义规则预设,语义分隔规则是利用正则式表达式设置分隔符对索书号进行预处理;
[0043]下表是根据语义分隔后的段示意,例如可以将某图书馆的索书号设置分割为4段,分隔符包括“:”、“/”,如表2所示;
[0044]表2语义分隔后段示意表:
[0045]索书号段1段2段3段4TP532.2:E23/CD521:

TP532.2E23CD5211TP4320.2:E23/CD521:

TP4320.2E23CD5211TP532.3:F23/CD6:

TP532.3F23CD61
……………
TP532.2:F23/UD521:

TP532.2F23UD5211TP532.2:F23/CD521:

TP532.2F23CD5212
[0046]表2中索书号是某高校图书馆的索书号,可以根据不同图书馆的索书号进行分段。
[0047]步骤三、设定索书号本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自定义语义规则的索书号的比较方法,其特征在于,包括以下步骤:步骤一、构建图书与图书索书号数据集;步骤二、根据索书号规则构建语义分隔规则,并根据语义分隔规则将索书号分割为若干段;步骤三、设定索书号的每个段的语义规则;步骤四、将待比较的两个索书号按照段优先级进行按值或块逐段比较,确定两个索书号的先后顺序。2.根据权利要求1所述的基于自定义语义规则的索书号的比较方法,其特征在于:语义分隔规则是利用正则表达式将索书号分割为若干段。3.根据权利要求1所述的基于自定义语义规则的索书号的比较方法,其特征在于,段语义规则包括:段比较类型、段优先级和段比较深度,段比较类型是设定待比较段按块还是按值比较;段优先级是设定若干段的比较先后顺序;段比较深度是设置段比较的最大长度。4.根据权利要求3所述的基于自定义语义规则的索书号的比较方法,其特征在于,还包括:强制码值转换、段字符集和转义字典,强制码值转换是自定义ascii先后顺序;段字符集设定待比较段的字符范围;转义字典是将特定字符映射为标准字符。5.根据权利要求1所述的基于自定义语义规则的索书号的比较方法,其特征在于,步骤四还包括:比较两个索书号的段总数,如果索书号的段有缺失,输出两个索书号的前后顺序。6.根据权利要求1所述的基于自定义语义规则的索书号的比较方法,其特征在...

【专利技术属性】
技术研发人员:金曙阳郑怿昕
申请(专利权)人:江苏科晶智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1