一种文档分析的方法及装置制造方法及图纸

技术编号:24331280 阅读:21 留言:0更新日期:2020-05-29 19:41
本发明专利技术提供了一种文档分析的方法及装置,其中,该方法通过确定待分析文档所属的业务类型,依据所述待分析文档所属的业务类型映射的实体类型集合,提取所述待分析文档中包含的实体,依据实体在所述待分析文档中出现的位置以及实体与实体之间的句法结构,获取实体与实体之间的关系,以实体为节点,实体之间的关系为边,构建知识图谱以及所述知识图谱与所述待分析文档的映射关系,存储所述待分析文档、所述知识图谱与所述映射关系。这样,后续在查询锁定文档后,通过映射关系,将该文档映射的知识图谱进行展示,从而使得查询者通过浏览该文档映射的知识图谱,对照分析锁定文档,可以提高文档分析的效率。

A method and device of document analysis

【技术实现步骤摘要】
一种文档分析的方法及装置
本专利技术涉及数据处理
,具体而言,涉及一种文档分析的方法及装置。
技术介绍
随着人类社会进入大数据时代,如何快捷有效地获取数据信息,已成为当前各业界迫切需要解决的问题。尤其对于金融行业、司法部门、公安机关等具有海量信息的行业领域来说,在通过查询关键词,从存储的文档库中,锁定包含该关键词的文档后,如何快速从锁定的文档中了解其核心内容,从而确定该文档是否是自己所需的文档,是一个迫切需要解决的问题。目前的方法,在锁定文档后,需要查询者通过浏览锁定文档的方式,自行提炼整理锁定文档中的核心内容,确定该文档是否是所需的文档,使得文档分析效率较低。
技术实现思路
有鉴于此,本专利技术的目的在于提供文档分析的方法及装置,以提升文档的分析效率。第一方面,本专利技术实施例提供了一种文档分析的方法,所述方法包括:确定待分析文档所属的业务类型,依据所述待分析文档所属的业务类型映射的实体类型集合,提取所述待分析文档中包含的实体;依据实体在所述待分析文档中出现的位置以及实体与实体之间的句法结构,获取实体与实体之间的关系;以实体为节点,实体之间的关系为边,构建知识图谱以及所述知识图谱与所述待分析文档的映射关系;存储所述待分析文档、所述知识图谱与所述映射关系。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,所述确定待分析文档所属的业务类型,包括:获取上传所述待分析文档的用户的标签,依据所述用户的标签匹配预设的业务类型库,获取所述待分析文档所属的业务类型;或,提取所述待分析文档中的关键词,分别与预设的业务类型库中的每一业务类型包含的业务关键词进行匹配,依据匹配结果确定所述待分析文档所属的业务类型。结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,所述提取所述待分析文档中包含的实体,包括:针对所述实体类型集合中的每一实体类型,从所述待分析文档中,提取与所述实体类型相匹配的实体。结合第一方面的第二种可能的实施方式,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,所述从所述待分析文档中,提取与所述实体类型相匹配的实体,包括:获取待分析文档中的文本信息,对所述文本信息进行分词;基于分词结果,选取与所述实体类型相匹配的词或词组,得到所述待分析文档中包含的实体。结合第一方面,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,所述依据实体在所述待分析文档中出现的位置以及实体与实体之间的句法结构,获取实体与实体之间的关系,包括:获取提取出的所述实体在所述待分析文档中分别出现的位置;基于获取的位置,计算两实体之间的一个或多个距离;若两实体之间的距离小于预设的距离阈值,依据小于预设的距离阈值内的该两实体之间的文本信息对应的句法结构,获取该两实体之间的关系。结合第一方面的第四种可能的实施方式,本专利技术实施例提供了第一方面的第五种可能的实施方式,其中,所述依据小于预设的距离阈值内的该两实体之间的文本信息对应的句法结构,获取该两实体之间的关系,包括:依据标点对所述两实体之间的文本信息进行拆分,得到一个或多个拆分句;针对每一拆分句,依据以谓语为核心的句法结构,对该拆分句进行依存句法分析,得到该拆分句中所述两实体之间的关系;合并各拆分句中所述两实体之间的关系,得到所述两实体之间的关系。结合第一方面,本专利技术实施例提供了第一方面的第六种可能的实施方式,其中,所述方法还包括:接收文档查询请求,依据所述文档查询请求中包含的查询关键词,获取查询文档;依据所述映射关系,获取所述查询文档映射的知识图谱;展示所述查询文档以及获取的知识图谱。第二方面,本专利技术实施例还提供了一种文档分析的装置,所述装置包括:实体提取模块,用于确定待分析文档所属的业务类型,依据所述待分析文档所属的业务类型映射的实体类型集合,提取所述待分析文档中包含的实体;实体关系提取模块,用于依据实体在所述待分析文档中出现的位置以及实体与实体之间的句法结构,获取实体与实体之间的关系;知识图谱构建模块,用于以实体为节点,实体之间的关系为边,构建知识图谱以及所述知识图谱与所述待分析文档的映射关系;信息存储模块,用于存储所述待分析文档、所述知识图谱与所述映射关系。第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文档分析的方法的步骤。第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述文档分析的方法的步骤。本专利技术实施例提供的存储文档的方法及装置,通过确定待分析文档所属的业务类型,依据所述待分析文档所属的业务类型映射的实体类型集合,提取所述待分析文档中包含的实体,依据实体在所述待分析文档中出现的位置以及实体与实体之间的句法结构,获取实体与实体之间的关系,以实体为节点,实体之间的关系为边,构建知识图谱以及所述知识图谱与所述待分析文档的映射关系,存储所述待分析文档、所述知识图谱与所述映射关系。这样,后续在查询锁定文档后,通过映射关系,将该文档映射的知识图谱进行展示,从而使得查询者通过浏览该文档映射的知识图谱,能够快速确定该文档是否是所需的文档,并依据所述知识图谱对照分析锁定文档,有效提升了文档分析的效率。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本专利技术实施例所提供的文档分析的方法流程示意图;图2示出了本专利技术实施例所提供的提取所述待分析文档中包含的实体的方法流程示意图;图3示出了本专利技术实施例所提供的文档分析的装置结构示意图;图4为本申请实施例提供的一种计算机设备400的结构示意图。元件符号说明:301-实体提取模块;302-实体关系提取模块;303-知识图谱构建模块;304-信息存储模块;400-计算机设备;401-存储器;402-处理器。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术本文档来自技高网...

【技术保护点】
1.一种文档分析的方法,其特征在于,所述方法包括:/n确定待分析文档所属的业务类型,依据所述待分析文档所属的业务类型映射的实体类型集合,提取所述待分析文档中包含的实体;/n依据实体在所述待分析文档中出现的位置以及实体与实体之间的句法结构,获取实体与实体之间的关系;/n以实体为节点,实体之间的关系为边,构建知识图谱以及所述知识图谱与所述待分析文档的映射关系;/n存储所述待分析文档、所述知识图谱与所述映射关系。/n

【技术特征摘要】
1.一种文档分析的方法,其特征在于,所述方法包括:
确定待分析文档所属的业务类型,依据所述待分析文档所属的业务类型映射的实体类型集合,提取所述待分析文档中包含的实体;
依据实体在所述待分析文档中出现的位置以及实体与实体之间的句法结构,获取实体与实体之间的关系;
以实体为节点,实体之间的关系为边,构建知识图谱以及所述知识图谱与所述待分析文档的映射关系;
存储所述待分析文档、所述知识图谱与所述映射关系。


2.根据权利要求1所述的方法,其特征在于,所述确定待分析文档所属的业务类型,包括:
获取上传所述待分析文档的用户的标签,依据所述用户的标签匹配预设的业务类型库,获取所述待分析文档所属的业务类型;或,
提取所述待分析文档中的关键词,分别与预设的业务类型库中的每一业务类型包含的业务关键词进行匹配,依据匹配结果确定所述待分析文档所属的业务类型。


3.根据权利要求1所述的方法,其特征在于,所述提取所述待分析文档中包含的实体,包括:
针对所述实体类型集合中的每一实体类型,从所述待分析文档中,提取与所述实体类型相匹配的实体。


4.根据权利要求3所述的方法,其特征在于,所述从所述待分析文档中,提取与所述实体类型相匹配的实体,包括:
获取待分析文档中的文本信息,对所述文本信息进行分词;
基于分词结果,选取与所述实体类型相匹配的词或词组,得到所述待分析文档中包含的实体。


5.根据权利要求1所述的方法,其特征在于,所述依据实体在所述待分析文档中出现的位置以及实体与实体之间的句法结构,获取实体与实体之间的关系,包括:
获取提取出的所述实体在所述待分析文档中分别出现的位置;
基于获取的位置,计算两实体之间的一个或多个距离;
若两实体之间的距离小于预设的距离阈值,依据小于预设的距离阈值内的该两实体之间的文本信息对应的句法结构,获取该两实...

【专利技术属性】
技术研发人员:荆小兵牟小峰
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1