历史文献数字化方法、装置、设备及存储介质制造方法及图纸

技术编号:39430679 阅读:9 留言:0更新日期:2023-11-19 16:15
本申请涉及一种历史文献数字化方法、装置、设备及存储介质,应用在文献数字化领域,其中方法包括:获取历史文献搜索指令;对所述历史文献搜索指令进行文本识别,得到所述历史文献搜索指令对应的搜索标签集,所述搜索标签集中包括一个或是若干搜索标签;在所述历史文献数据库中查找与所述搜索标签相匹配的历史文献;将查找到的历史文献进行排序,并显示排序结果。本申请具有的技术效果是:便于用户能够简单、快捷地搜索自己所需要的历史文献。快捷地搜索自己所需要的历史文献。快捷地搜索自己所需要的历史文献。

【技术实现步骤摘要】
历史文献数字化方法、装置、设备及存储介质


[0001]本申请涉及文献数字化的
,尤其是涉及一种历史文献数字化方法、装置、设备及存储介质。

技术介绍

[0002]历史文献作为人类精神产品,具有可复制性和可移植性,并且必须依托载体而存在。人类已经进入信息时代,我们现在不仅面临着使用新技术来整理旧史料的问题,而且随着考古新发现的不断涌现和科技的发展,史料的容量和形式急剧膨胀。以何种方法处理、存储史料,并且能够让学者从中方便迅速地检索和得到所需的信息,是当前史料学的一个大问题。
[0003]如何解决上述的难题,数字化是史料处理的必由之路,数字化对于史料整理和发展具有巨大意义,首先,将各种史料统一为计算机数据,能够便于存储与检索;其次,史料的物理体积大大缩小,便于携带;最后,史料能够被低成本无差别的拷贝,方便史料的传播和普及。历史文献数字化的目标是将原来在各种物理载体上存储的信息,统一转变为最基本的比特,用0和1来表示,成为计算机可以识别的数据。历史文献数字化的终极形式为数字图书馆的出现。数字图书馆,就是利用现代信息技术对有价值的图像、文本、语音、音响、影像、影视、软件和科学数据库等多媒体信息进行收集,组织规范性的加工和压缩处理,使其转化为数字信息,然后通过计算机技术进行高质量保存和管理,实施知识增值,并通过网络通讯技术进行高效、经济地传播、接收,使用户可以在任何时间、任何地点,都能从网上得到各种服务,为公民的终身学习机会做出贡献,成为国家的知识基础设施。
[0004]如何使用户在使用数字图书馆的过程中,能够较为简单、快捷地搜索自己所需要的历史文献,是当前数字图书馆所需要思考的问题。

技术实现思路

[0005]为了便于用户能够简单、快捷地搜索自己所需要的历史文献,本申请提供的一种历史文献数字化方法、装置、设备及存储介质。
[0006]第一方面,本申请提供一种历史文献数字化方法,采用如下的技术方案:所述方法包括:获取历史文献搜索指令;对所述历史文献搜索指令进行文本识别,得到所述历史文献搜索指令对应的搜索标签集,所述搜索标签集中包括一个或是若干搜索标签;在所述历史文献数据库中查找与所述搜索标签相匹配的历史文献;将查找到的历史文献进行排序,并显示排序结果。
[0007]通过上述技术方案,历史文献数字化系统通过对获取到的历史文献搜索指令进行分析处理,得到其中的搜索标签,并根据搜索标签在历史文献数据库中查找自身的标准识别标签与搜索标签完全一致的历史文献,用户只需键入关键词信息,即可得到搜索结果,整个搜索过程较为简单、快捷。
[0008]在一个具体的可实施方案中,所述搜索标签至少包括以下之一:文献年代、文献分类、文献作者、文献名称、文献出版时间、文献体裁、文献出版者。
[0009]通过上述技术方案,历史文献数字化系统提供给用户用于搜索历史文献的关键词信息几乎涵盖了一份历史文献的基本信息,搜索标签种类的丰富有利于在搜索过程中,尽可能的将搜索结果聚焦到用户所想要查询的历史文献上。
[0010]在一个具体的可实施方案中,在所述获取历史文献搜索指令之前,还包括:确定所述历史文献数据库中所有历史文献对应的标准识别标签;统计不同标准识别标签对应的出现次数;根据对应的出现次数对所述标准识别标签进行升序排列,得到标准识别标签序列;所述在所述历史文献数据库中查找与所述搜索标签相匹配的历史文献,具体包括:依次获取所述标准识别标签序列中的标准识别标签;将所述标准识别标签与所述搜索标签集中的搜索标签进行匹配;若存在与所述标准识别标签一致的搜索标签,则根据所述标准识别标签筛选历史文献,得到初始搜索结果;将与所述标准识别标签一致的搜索标签从所述搜索标签集中剔除;继续获取所述标准识别标签序列中剩余的标准识别标签;将获取到的标准识别标签与搜索标签集中剩余的搜索标签进匹配;根据匹配结果对所述初始搜索结果中的历史文献进行筛选,直至遍历完所有标准识别标签或是搜索标签集中的搜索标签均被剔除。
[0011]通过上述技术方案,历史文献数字化系统在将搜索标签与历史文献对应的标准识别标签进行匹配的过程中,首先从历史文献数据库中出现次数最少的标准识别标签开始与搜索标签进行匹配,并根据匹配结果对历史文献数据库中的历史文献进行筛选,不断重复上述过程,直至遍历完所有的标准识别标签,或是搜索标签均匹配成功,从出现次数最少的标准识别标签开始筛选历史文献,有助于提升历史文献的搜索速度。
[0012]在一个具体的可实施方案中,所述将查找到的历史文献进行排序,并显示排序结果,具体包括:确定筛选出的历史文献对应的点击次数;根据所述点击次数对筛选出的历史文献进行降序排列;按照降序排列结果显示筛选出的历史文献。
[0013]通过上述技术方案,历史文献数字化系统在展示历史文献搜索结果时,会按照历史文献对应的点击次数对历史文献进行排序,点击次数越高的历史文献对应的排序序号值越小,并且点击次数越高,表示历史文献被搜索的可能性越大,因此,利用点击次数对历史文献进行排序能够帮助用户尽快查询到自己所需要的历史文献。
[0014]在一个具体的可实施方案中,在所述获取历史文献搜索指令之前,还包括:确定用户账号;根据所述用户账号查找对应的用户数据单元,所述用户数据单元中存储有用户的历史阅读记录;
根据所述历史阅读记录统计历史文献对应的标准识别标签的历史频数;根据所述历史频数计算不同标准识别标签的历史频率;确定用户账号最近一次登录时间;获取在用户账号最近一次登录时间之后存储至历史文献数据库中的历史文献,记为上新文献;按照历史阅读记录中的标准识别标签对应的历史频率向用户推荐上新文献。
[0015]通过上述技术方案,在有新的历史文献入库时,历史文献数字化系统会对新入库的历史文献进行评估,选取部分上新的历史文献推荐给用户,以便于用户能够掌握自身感兴趣的最新文献信息。
[0016]在一个具体的可实施方案中,所述所述按照历史阅读记录中的标准识别标签对应的历史频率向用户推荐上新文献,具体包括:将所述历史频率设为历史阅读记录中标准识别标签的标准计分值;统计所述上新文献的标准识别标签对应的标准计分值,得到上新文献对应的总分值;按照所述总分值对上新文献进行升序排列;根据升序排列结果向用户推荐上新文献。
[0017]通过上述技术方案,历史文献数字化系统根据上新的历史文献对应的标准识别标签对历史文献进行评估,得到历史文献对应的总分值,在向用户推荐上新的历史文献时,优先推荐总分值高的历史文献。
[0018]在一个具体的可实施方案中,在所述按照所述总分值对上新文献进行升序排列,还包括:若存在多个上新文献对应的总分值一致,则确定所述上新文献对应的标准识别标签数量;将所述上新文献按照标准识别标签数量进行升序排列。
[0019]通过上述技术方案,历史文献数字化系统在向用户推荐上新的历史文献时,若是多个历史文献对应的总分值一致,历史文献数字化系统优先推荐具有的标准识别标签较少的历史文献,有利于使用向用户推荐的历史文献更加符合用户的兴趣。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种历史文献数字化方法,其特征在于,所述方法应用于历史文献数字化系统,所述历史文献数字化系统包括存储有若干历史文献的历史文献数据库,所述方法包括:获取历史文献搜索指令;对所述历史文献搜索指令进行文本识别,得到所述历史文献搜索指令对应的搜索标签集,所述搜索标签集中包括一个或是若干搜索标签;在所述历史文献数据库中查找与所述搜索标签相匹配的历史文献;将查找到的历史文献进行排序,并显示排序结果。2.根据权利要求1所述的方法,其特征在于,所述搜索标签至少包括以下之一:文献年代、文献分类、文献作者、文献名称、文献出版时间、文献体裁、文献出版者。3.根据权利要求1所述的方法,其特征在于,所述历史文献对应若干不同的标准识别标签,在所述获取历史文献搜索指令之前,还包括:确定所述历史文献数据库中所有历史文献对应的标准识别标签;统计不同标准识别标签对应的出现次数;根据对应的出现次数对所述标准识别标签进行升序排列,得到标准识别标签序列;所述在所述历史文献数据库中查找与所述搜索标签相匹配的历史文献,具体包括:依次获取所述标准识别标签序列中的标准识别标签;将所述标准识别标签与所述搜索标签集中的搜索标签进行匹配;若存在与所述标准识别标签一致的搜索标签,则根据所述标准识别标签筛选历史文献,得到初始搜索结果;将与所述标准识别标签一致的搜索标签从所述搜索标签集中剔除;继续获取所述标准识别标签序列中剩余的标准识别标签;将获取到的标准识别标签与搜索标签集中剩余的搜索标签进匹配;根据匹配结果对所述初始搜索结果中的历史文献进行筛选,直至遍历完所有标准识别标签或是搜索标签集中的搜索标签均被剔除。4.根据权利要求1所述的方法,其特征在于,所述将查找到的历史文献进行排序,并显示排序结果,具体包括:确定筛选出的历史文献对应的点击次数;根据所述点击次数对筛选出的历史文献进行降序排列;按照降序排列结果显示筛选出的历史文献。5.根据权利要求1所述的方法,其特征在于,历史文献数字化系统还包括若干用户数据单元...

【专利技术属性】
技术研发人员:汪媛王寒山
申请(专利权)人:越读浙江数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1