本申请公开了一种知识管理系统及其构建方法,该方法包括以下步骤:接收知识提供者上传的原始文件;对所述原始文件的类型进行分析,根据所述类型从所述原始文件中提取文件内容;对所述文件内容进行分词,并基于分词结果构建知识管理系统的倒排索引。本申请实施例根据原始文件的类型从原始文件中提取文件内容并构建倒排索引,使得知识管理系统中的多种格式的文件都能够被搜索到,丰富了知识管理系统支持的文档类型,使得知识管理系统能够覆盖更多的场景,提高了知识的多样性,丰富了知识管理系统的内容,提高了系统的易用性。提高了系统的易用性。提高了系统的易用性。
【技术实现步骤摘要】
一种知识管理系统及其构建方法
[0001]本申请属于计算机
,具体涉及一种知识管理系统及其构建方法。
技术介绍
[0002]知识管理系统是企业实现知识管理的平台,其总体目标是通过将企业中的各种知识资源整合为动态的知识体系,以促进知识创新,通过知识创新能力的不断提高带动劳动生产率的提高,从而最终提高企业的核心竞争力。在一定的组织内,组织成员可以为知识或经验的提供者,也可以是知识的使用者。通过建立一套有效的机制,使组织内的知识能够被很好的管理,并且便于分享和检索,从而为建立学习型组织提供便利,努力消除信息不对称,经验推广困难等问题。
[0003]然而,现有的知识管理系统支持的文档格式有限,导致能够被分享的知识也较为有限。
[0004]申请内容
[0005]本申请实施例的目的是提供一种知识管理系统及其构建方法,以解决现有的知识管理系统分享的知识较为有限的缺陷。
[0006]为了解决上述技术问题,本申请是这样实现的:
[0007]第一方面,提供了一种知识管理系统的构建方法,包括以下步骤:
[0008]接收知识提供者上传的原始文件;
[0009]对所述原始文件的类型进行分析,根据所述类型从所述原始文件中提取文件内容;
[0010]对所述文件内容进行分词,并基于分词结果构建知识管理系统的倒排索引。
[0011]第二方面,提供了一种知识管理系统,包括:
[0012]接收模块,用于接收知识提供者上传的原始文件;
[0013]分析模块,用于对所述原始文件的类型进行分析,根据所述类型从所述原始文件中提取文件内容;
[0014]构建模块,用于对所述文件内容进行分词,并基于分词结果构建知识管理系统的倒排索引。
[0015]本申请实施例根据原始文件的类型从原始文件中提取文件内容并构建倒排索引,使得知识管理系统中的多种格式的文件都能够被搜索到,丰富了知识管理系统支持的文档类型,使得知识管理系统能够覆盖更多的场景,提高了知识的多样性,丰富了知识管理系统的内容,提高了系统的易用性。
附图说明
[0016]图1是本申请实施例提供的一种知识管理系统的构建方法流程图;
[0017]图2是本申请实施例提供的一种知识管理系统的结构示意图。
具体实施方式
[0018]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0019]现有的知识管理系统支持的文档格式有限,不能覆盖多种文件格式。例如,偏向于类文本型的文件,支持doc、txt、pdf等格式的文件,不能同时支持图片、视频和音频文件。即使pdf和图片可能是某种形式的文本内容,就无法搜索到匹配内容,音频和视频类的知识也存在同样的问题。
[0020]以下述场景为例,当组织收到上级传达的文件时,该文件是以扫描文件的形式存储的,想做到仅内部传达或留档。由于传达的文件是扫描文件,所以需要人工将扫描文件转录成文本形式,这样的操作比较耗时耗力。如果不进行文本转换,以后就无法根据内容进行查询,也就降低了知识的可用性和易用性,只是作为归档文件存在于组织内部。音视频文件更是如此,而且随着在线办公和异地线上会议活动的增多,会产生大量的音视频类型的知识。针对这种场景,需要知识管理系统增加不同类型文件内容提取的能力。
[0021]下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的知识管理系统的构建方法进行详细地说明。
[0022]如图1所示,为本申请实施例提供的一种知识管理系统的构建方法流程图,该方法包括以下步骤:
[0023]步骤101,接收知识提供者上传的原始文件。
[0024]本实施例中,在接收知识提供者上传的原始文件之后,还可以根据所述原始文件及其对应的分类信息和描述信息形成知识,并将所述知识保存到所述知识管理系统。
[0025]进一步地,在将所述知识保存到所述知识管理系统之后,还可以根据知识的类型,执行在线预览、播放、打印和下载操作。
[0026]步骤102,对所述原始文件的类型进行分析,根据所述类型从所述原始文件中提取文件内容。
[0027]具体地,在所述原始文件的类型为文本类型的情况下,直接从所述原始文件中提取文件内容;
[0028]在所述原始文件的类型为图片类型的情况下,可以通过光学字符识别OCR模块从所述原始文件中提取文件内容;在所述原始文件的类型为音频类型的情况下,可以通过语音识别模块从所述原始文件中提取文件内容;在所述原始文件的类型为视频类型的情况下,可以通过音频提取模块将所述原始文件转换成音频文件,再通过语音识别模块从所述音频文件中提取文件内容。
[0029]其中,OCR(optical character recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。
[0030]语音识别模块借助于ASR(Automatic Speech Recognition,自动语音识别)技术从音频文件中提取文件内容,ASR技术是一种将人的语音转换为文本的技术。语音识别是一
个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。
[0031]步骤103,对所述文件内容进行分词,并基于分词结果构建知识管理系统的倒排索引。
[0032]本实施例中,在基于分词结果构建知识管理系统的倒排索引之后,还可以获取知识使用者在检索页面输入的关键词;根据所述知识管理系统的文件内容与所述关键词的匹配程度,返回知识列表。
[0033]本申请实施例根据原始文件的类型从原始文件中提取文件内容并构建倒排索引,使得知识管理系统中的多种格式的文件都能够被搜索到,丰富了知识管理系统支持的文档类型,使得知识管理系统能够覆盖更多的场景,提高了知识的多样性,丰富了知识管理系统的内容,提高了系统的易用性。
[0034]在本申请实施例中,构建知识管理系统的实现过程包括:文件上传
‑
>类型解析
‑
>OCR/音频提取内容
‑
>文本解析
‑
>索引入库
‑
>搜索
‑
>知识展现。
[0035]其中,在文件上传步骤中,知识提供者上传某种格式的文档,添加分类、描述等信息形成知识;在类型解析步骤哦中,本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种知识管理系统的构建方法,其特征在于,包括以下步骤:接收知识提供者上传的原始文件;对所述原始文件的类型进行分析,根据所述类型从所述原始文件中提取文件内容;对所述文件内容进行分词,并基于分词结果构建知识管理系统的倒排索引。2.根据权利要求1所述的方法,其特征在于,所述根据所述类型从所述原始文件中提取文件内容,具体包括:在所述原始文件的类型为文本类型的情况下,直接从所述原始文件中提取文件内容;在所述原始文件的类型为图片类型的情况下,通过光学字符识别OCR模块从所述原始文件中提取文件内容;在所述原始文件的类型为音频类型的情况下,通过语音识别模块从所述原始文件中提取文件内容;在所述原始文件的类型为视频类型的情况下,通过音频提取模块将所述原始文件转换成音频文件,再通过语音识别模块从所述音频文件中提取文件内容。3.根据权利要求1所述的方法,其特征在于,所述基于分词结果构建知识管理系统的倒排索引之后,还包括:获取知识使用者在检索页面输入的关键词;根据所述知识管理系统的文件内容与所述关键词的匹配程度,返回知识列表。4.根据权利要求1所述的方法,其特征在于,所述接收知识提供者上传的原始文件之后,还包括:根据所述原始文件及其对应的分类信息和描述信息形成知识,并将所述知识保存到所述知识管理系统。5.根据权利要求4所述的方法,其特征在于,所述将所述知识保存到所述知识管理系统之后,还包括:根据知识的类型,执行在线预览、播放...
【专利技术属性】
技术研发人员:常宏伟,彭珂,
申请(专利权)人:北京易华录信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。