基于领域知识库的专业文档智能辅助阅读方法技术

技术编号:37997296 阅读:10 留言:0更新日期:2023-06-30 10:11
本发明专利技术属于计算机自然语言处理技术领域,具体为一种基于领域知识库的专业文档智能辅助阅读方法。本发明专利技术包括构建领域本体知识库,借助本体知识库中所存储的以语义相关联知识,为读者阅读专业文档智能提供和补充背景知识;包括运用计算机对读者正在阅读电子文档中所出现的专业术语和概念进行实时注解,并且以语义方式组织相关背景知识,实现相关知识之间的语义关联和导航,包括提供语义分析、关联分析、知识搜索和智能推荐等;从而知能辅助阅读专业化程度较高的文字内容,除低读者的阅读难度,并且提高读者的阅读效率、体验和乐趣。体验和乐趣。体验和乐趣。

【技术实现步骤摘要】
基于领域知识库的专业文档智能辅助阅读方法


[0001]本专利技术属于计算机自然语言处理
,具体涉及专业文档智能辅助阅读方法。

技术介绍

[0002]阅读较为专业或不熟悉领域的文字内容,往往需要了解相关背景知识,特别是专业术语的含义,才能够较为顺利地开展阅读,并且理解所阅读的内容。阅读传统纸质文字内容和书籍时,当遇到不了解的专业术语,人们往往需要通过各种方法查询相关的知识。在线阅读电子内容时,则可以利用计算机帮助实时获得辅助阅读的相关知识。
[0003]知识图谱是采用语义检索技术从多种信息源收集与某一主题相关的实体或概念,以及他们之间的关联所形成的网络图。图中的结点对应实体或概念,图中的弧对应于实体或概念之间的关联关系。借助知识图谱技术,通过深化现实世界中每个实体以及他们之间相互关系的理解,可以提高搜索精度和优化搜索结果,还可以提供语义分析、关联分析、知识搜索和智能推荐等知识服务。在构建领域知识图谱基础上,可以从文字内容中自动识别领域术语,并与知识图谱中存储的知识进行语义关联,进而在阅读过程中实时地提供术语解释、知识导航和智能搜索等功能,降低读者的阅读难度,提高读者的阅读效率、体验和乐趣。

技术实现思路

[0004]本专利技术的目的在于提出一种可降低阅读难度,提高阅读效率、体验和乐趣的专业文档智能辅助阅读方法。
[0005]本专利技术提出的专业文档智能辅助阅读方法,是基于领域知识库技术的,通过构建领域本体知识库,借助本体知识库中所存储的以语义相关联知识,为读者阅读专业文档智能提供和补充背景知识。包括运用计算机对读者正在阅读电子文档中所出现的专业术语和概念进行实时注解,并且以语义方式组织相关背景知识,从而实现相关知识之间的语义关联和导航,例如提供语义分析、关联分析、知识搜索和智能推荐等;从而知识辅助阅读专业化程度较高的文字内容,除低读者的阅读难度,并且提高读者的阅读效率、体验和乐趣。
[0006]本专利技术提出的基于领域知识库的专业文档智能辅助阅读方法,具体步骤包括:领域本体知识库的构建、领域本体知识库的使用、语义关联与智能问答。
[0007]步骤(1)领域本体知识库的构建:
[0008]分为按信息抽取、知识融合和知识加工三个阶段构建领域本体知识库,即知识图谱。构建过程包括以下步骤:
[0009](1.1)信息抽取,从数据源中提取出实体、属性以及实体之间的相互关系;根据数据源中的数据构建词典和关系数据库;采用基于SpanBERT结构深度神经网络和软词表的方式对抽取获得的实体进行筛选,解决未知实体较多的问题;
[0010](1.2)知识融合,对信息抽取阶段所获得的知识进行处理,将从网上获取的外部知
识库和根据信息抽取阶段所构建的关系数据库中的数据进行转换,并导入到领域本体库,实现对知识整合;通过计算实体之间的余弦相似度的方法来消除矛盾和歧义;
[0011](1.3)知识加工,采用人工编辑对经过融合的知识进行加工;然后对编辑所获得的知识使用FudanDNN

NLP工具进行知识推理,通过知识发现完善和补充知识;通过知识加工确保知识库的质量;
[0012](1.4)构建完成领域本体知识库后,根据上述三个阶段迭代更新领域本体知识库。
[0013]步骤(2)在领域本体知识库的使用:
[0014](2.1)利用所构建的领域本体知识库,对各类领域实体、关系、属性利用多维索引技术构建领域概念的索引;
[0015](2.2)根据领域本体知识库所提供的知识搭建一个阅读智能辅助平台,为每一个概念生成HTML局部页面,具体包含简要解释和相关属性值与图片,其中,使用DIV标签,称之为概念的说明框;
[0016](2.3)利用上步所构建的领域概念的索引和阅读智能辅助平台,同时结合命名识别工具FudanDNN

NLP从电子文档中识别出领域概念,概念的相关知识通过以阅读智能辅助平台页面中隐式链接的方式关联到概念的说明框。
[0017]步骤(3)语义关联与智能问答;
[0018]在阅读智能辅助平台中的阅读界面还提供智能检索功能,并且能够利用本体知识库所存储的知识进行智能问答;语义关联和智能问答的把步骤如下:
[0019](3.1)调用现有语音识别工具对语音进行识别,转换成文字表示的句子(如果以文字方式进行交互,此步可略);
[0020](3.2)对上一步得到的句子使用FudanDNN

NLP工具进行基础预处理,包括语言规范化、敏感词检测、自定义词汇识别、命名识别、中文分词、词性分析;
[0021](3.3)判断预处理后的句子是否处于上下文相关问答或多轮对话中,如果是,则进行下一步处理;如果之前没有上下文信息或者当前语句不属于已开展的上下文相关问答和多轮对话,则进入后续处理;
[0022](3.4)对于上一步经过判断后的句子,对寒暄和常见问题进行优先匹配,匹配过程考虑发音相似性;如果存在匹配的回答,直接产生回答;如果不存在匹配则进入后续的处理;
[0023](3.5)使用FudanDNN

NLP工具中的句子分类模型对句子进行分类,识别用户意图,并且根据意图识别结果进行语义分析;
[0024](3.6)对于需要使用知识库或外部资源的应用,则调用知识库或外部资源查询接口,获取查询结果;
[0025](3.7)通过调用外部资源执行查询,返回查询结果,产生答句;
[0026](3.8)如果语义分析或者外部资源调用失败,对大规模问答库检索产生合适的答句;
[0027](3.9)根据所生成的答句;
[0028](3.10)调用现有语音合成功能,产生语音回答(如果以文字方式进行交互,此步可略)。
[0029]根据上述专业文档智能辅助阅读方法,本专利技术还包括基于领域知识库的专业文档
智能辅助阅读系统。该系统包括三个模块:领域本体知识库的构建模块、领域本体知识库使用模块、语义关联与智能问答模块。三个模块分别执行本专利技术三个步骤的操作内容。
[0030]本专利技术特点在于:
[0031](1)实时高效地在阅读电子文档时提供和补充背景知识,有效降低读者的阅读难度,并且提升读者的阅读效率、体验和乐趣;
[0032](2)以语义关联的方式组织领域知识,实现领域知识的语义导航,帮助读者快速和系统地了解相关的信息和知识;
[0033](3)阅读界面集成能以自然语言交互方式进行智能检索和知识库问答。以解决用户问题为目标,利用领域知识通过智能推理来引导对话的顺利展开,具备问题答案的解释能力。
[0034]本专利技术可为读者实时和便捷地提供阅读所需的背景或专业知识,大幅降低阅读的难度,提高读者的阅读体验和乐趣。对比没有智能阅读辅助系统的情况,读者的阅读效率和效果都有明显的提升。
[0035]自然语言处理:计算机科学领域与人工智能领域中的一个重要分支,研究能实现人与计算机之间用自然语言进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于领域知识库的专业文档智能辅助阅读方法,其特征在于,构建领域本体知识库,借助本体知识库中所存储的以语义相关联知识,为读者阅读专业文档智能提供和补充背景知识;包括运用计算机对读者正在阅读电子文档中所出现的专业术语和概念进行实时注解,并且以语义方式组织相关背景知识,实现相关知识之间的语义关联和导航,包括提供语义分析、关联分析、知识搜索和智能推荐;从而知识辅助阅读专业化程度较高的文字内容,除低读者的阅读难度,并且提高读者的阅读效率、体验和乐趣。2.根据权利要求1所述的基于领域知识库的专业文档智能辅助阅读方法,其特征在于,具体步骤包括:领域本体知识库的构建、领域本体知识库的使用、语义关联和智能问答;步骤(1)领域本体知识库的构建:分为按信息抽取、知识融合和知识加工三个阶段构建领域本体知识库,即知识图谱;构建过程包括以下步骤:(1.1)信息抽取,从数据源中提取出实体、属性以及实体之间的相互关系;根据数据源中的数据构建词典和关系数据库;采用基于SpanBERT结构深度神经网络和软词表的方式对抽取获得的实体进行筛选,解决未知实体较多的问题;(1.2)知识融合,对信息抽取阶段所获得的知识进行处理,将从网上获取的外部知识库和根据信息抽取阶段所构建的关系数据库中的数据进行转换,并导入到领域本体库,实现对知识整合;通过计算实体之间的余弦相似度的方法来消除矛盾和歧义;(1.3)知识加工,采用人工编辑对经过融合的知识进行加工;然后对编辑所获得的知识使用FudanDNN

NLP工具进行知识推理,通过知识发现完善和补充知识;通过知识加工确保知识库的质量;(1.4)构建完成领域本体知识库后,根据上述三个阶段迭代更新领域本体知识库;步骤(2)在领域本体知识库的使用:(2.1)利用所构建的领域本体知识库,对各类领域实体、关系、属性利用多维索引技术构建领域概念的索引;(2.2)根据领域本体知识库所提供的知识搭建一个阅读智能辅助平台,为每一个概念生成HTML局部页面,具体包含简要解释和相关属性值与图片...

【专利技术属性】
技术研发人员:郑骁庆王若晖
申请(专利权)人:平湖空间感知实验室科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1