一种基于知识图谱的公文搜索方法技术

技术编号:20819997 阅读:46 留言:0更新日期:2019-04-10 05:57
本发明专利技术提供一种基于知识图谱的公文搜索方法,其步骤如下:收集数据‑公文语义刻画‑公文图谱刻画‑搜索‑展示。本发明专利技术能有效解决“一词多义”或“多词一义”的问题,且能及时更新公开发布的公文,覆盖绝大部分主要发布机构,将其应用于专用领域,搜索结构更精确,更合理。

【技术实现步骤摘要】
一种基于知识图谱的公文搜索方法
本专利技术涉及一种基于知识图谱的公文搜索方法,属于搜索引擎领域。
技术介绍
传统的搜索方案是基于字词的搜索。对于中文而言,首先需要将待搜索文档进行分词,然后倒排索引,将“文档1-(词1,词2,…)”的结构转变为“词1-(文档1,文档2,…)”的结构进行存储。当用户搜索时,搜索引擎首先将用户的检索分词,然后根据词在上述倒排索引后的数据中查询包含该词的文档,最后根据文档中出现词的多少以及其它相关因素对文档进行评分,按评分结果返回相关文档。公文领域所涉内容广泛,对于公文领域,一般的分词工具难以满足需求,然而从头训练一个适用于公文领域的分词工具需要海量人工标注的语料数据,而公文搜索主要为各公文发布网站自建的搜索引擎服务,这种办法不太适合我们当前的场景。在自建式服务不能有效解决一词多义和多词一义的问题,同时自建式服务的服务范围为本网站,不能及时跟踪其它公文发布网站的公文;而通用搜索引擎无法及时有效的区分公文与其它文档,其结果对于公文检索用户不友好。综上,传统搜索引擎在公文领域存在如下问题:1.领域搜索引擎覆盖面小,没有覆盖所有公文发布机构;2.通用搜索引擎搜索结果混杂,不能良好适配与公文搜索领域;3.二者在公文领域都存在“一词多义”或“多词一义”的理解问题。
技术实现思路
为解决上述技术问题,本专利技术提供了一种基于知识图谱的公文搜索方法,该基于知识图谱的公文搜索方法解决了公文搜索领域的一次多义和多词一义问题,以及公文领域的数据覆盖问题和精准查询问题。本专利技术通过以下技术方案得以实现。本专利技术提供的一种基于知识图谱的公文搜索方法,包括以下步骤:①收集数据:爬取各公文发布网站所发布的公文以及百科类网站的数据,获取百科数据和公文数据;②公文语义刻画:对公文数据和百科数据进行清洗,同时从百科数据中抽取术语,构建专用词典,再利用实体识别工具,从专业词典中获取实体、概念、属性和关系权重;③公文图谱刻画:将实体、概念、属性、赋权,转储为知识图谱的存储方式,形成图谱;④搜索:根据步骤③中的概念图谱,对用户的查询请求进行识别,返回相关公文。⑤展示:用传统的文本内容或概念图谱、知识图谱的方式,进行相关公文的展示。所述步骤②分为以下步骤:(2.1)抽取术语:对百科数据进行清洗,同时从中抽取大量的术语;(2.2)公文清洗:对公文数据进行清洗;(2.3)形成专业词典:将步骤(2.1)和(2.2)中的公文、术语进行集合;(2.4)利用实体识别工具,从词典中获取实体集合,同时利用点互信息公式,补充未识别实体;(2.5)概念识别:根据词性标注,提取实体和概念之间的关键词表示,抽取instanceOf关系,获取概念集合;(2.6)属性分类:将实体集合中的实体、概念集合中的概念进行属性分类;(2.7)实体统计:根据步骤(2.4),在公文发布网站以及百科类网站中,统计出每篇文档中,每个实体出现的次数以及所有实体出现的总次数;(2.8)概念统计:根据步骤(2.5),在公文发布网站以及百科类网站中,累计同一文档中表示同一概念的实体次数,获取同一文档中该概念的出现次数以及所有概念的出现总次数。所述步骤(2.4)中,点互信息公式如下:其中,p(x,y)表示术语x,y在专用词典中同一个句子中出现的次数,p(x)表示术语x在专用词典中出现的次数,p(y)表示术语y在专用词典中出现的次数。所述步骤(2.5)中,抽取概念集合之间的层次关系,形成subclassOf关系,获取概念层次关系集合。所述步骤(2.7)中,每个实体出现的概率为:其中,Nw表示给定文档中w出现的次数,N为文档中的实体总数。所述步骤(2.8)中,概率为:其中,Nc表示该概念在给定文档中的出现次数,N为文档中所有概念的出现次数。所述步骤③中,概念图谱的图节点为各公文、概念、实体以及属性,边为实体之间的赋权关系。所述赋权关系,用步骤(2.7)中所述的概率进行表示。所述步骤④分为以下步骤:(4.1)对用户的查询请求进行实体识别;(4.2)利用实体识别工具对实体进行分词并标注词性;(4.3)将查询词转化为图谱中对应的实体、概念,获取实体、概念之间的修饰关系;(4.4)根据实体、概念的修饰关系,结合文档的关系权重,获取最相关的文档,并返回相关的公文。所述步骤②中,实体识别工具依据专业词典、公开的标注语料以及公文领域的实体识别标注语料进行构建,形成公文领域的实体识别工具;所述实体识别工具具有分词以及词性标注功能,能通过统计公文中出现的实体、概念,获取实体、概念和公文之间的关系权重。本专利技术的有益效果在于:有效解决“一词多义”或“多词一义”的问题,且能及时更新公开发布的公文,覆盖绝大部分主要发布机构,将其应用于专用领域,搜索结构更精确,更合理。具体实施方式下面进一步描述本专利技术的技术方案,但要求保护的范围并不局限于所述。一种基于知识图谱的公文搜索方法,包括以下步骤:①收集数据:爬取各公文发布网站所发布的公文以及百科类网站的数据,获取百科数据和公文数据;②公文语义刻画:对公文数据和百科数据进行清洗,同时从百科数据中抽取术语,构建专用词典,再利用实体识别工具,从专业词典中获取实体、概念、属性和关系权重;优选的,利用NLP工具,采取模式抽取的方式,从专用词典中抽取出相关的实体、概念以及属性的集合,具体分为以下步骤:(2.1)抽取术语:对百科数据进行清洗,同时从中抽取大量的术语;(2.2)公文清洗:对公文数据进行清洗;(2.3)形成专业词典:将步骤(2.1)和(2.2)中的公文、术语进行集合;(2.4)利用实体识别工具,从词典中获取实体集合,同时利用点互信息公式,补充未识别实体;(2.5)概念识别:根据词性标注,提取实体和概念之间的关键词表示,抽取instanceOf关系,获取概念集合;具体的,根据语言习惯以及中文特点,一个实体属于某个概念(比如“中电科是一个公司”),因此这个实体和这个概念会大量出现在同一个句子中,据此,我们可以通过模板自学习的策略,从少量标注的高质量种子模板,扩展出质量可靠的高召回模板,以此挖掘实体和概念之间的关键词表示,然后通过这种方式抽取实体和概念之间的instanceOf关系,得到实体所属的概念集合;(2.6)属性分类:将实体集合中的实体、概念集合中的概念进行属性分类;(2.7)实体统计:根据步骤(2.4),在公文发布网站以及百科类网站中,统计出每篇文档中,每个实体出现的次数以及所有实体出现的总次数;(2.8)概念统计:根据步骤(2.5),在公文发布网站以及百科类网站中,累计同一文档中表示同一概念的实体次数,获取同一文档中该概念的出现次数以及所有概念的出现总次数。进一步地,所述步骤(2.4)中,点互信息公式如下:其中,p(x,y)表示术语x,y在专用词典中同一个句子中出现的次数,p(x)表示术语x在专用词典中出现的次数,p(y)表示术语y在专用词典中出现的次数。进一步地,所述步骤(2.5)中,抽取概念集合之间的层次关系,形成subclassOf关系,获取概念层次关系集合;如:我们通过“是一种”、”是一个”、“是…的一个子类”等类似的模式,得到概念之间的层次关系,即形成概念集合之间的subclassOf关系,得到概念层次关系集合。进一步地,所述步骤(2.7)中,每个本文档来自技高网...

【技术保护点】
1.一种基于知识图谱的公文搜索方法,其特征在于:包括以下步骤:①收集数据:爬取各公文发布网站所发布的公文以及百科类网站的数据,获取百科数据和公文数据;②公文语义刻画:对公文数据和百科数据进行清洗,同时从百科数据中抽取术语,构建专用词典,再利用实体识别工具,从专业词典中获取实体、概念、属性和关系权重;③公文图谱刻画:将实体、概念、公文、关系权重,形成公文内涵知识图谱,将公文、实体、属性,形成公文领域概念图谱;④搜索:根据步骤③中的概念图谱,对用户的查询请求进行识别,返回相关公文。⑤展示:用传统的文本内容或概念图谱、知识图谱的方式,进行相关公文的展示。

【技术特征摘要】
1.一种基于知识图谱的公文搜索方法,其特征在于:包括以下步骤:①收集数据:爬取各公文发布网站所发布的公文以及百科类网站的数据,获取百科数据和公文数据;②公文语义刻画:对公文数据和百科数据进行清洗,同时从百科数据中抽取术语,构建专用词典,再利用实体识别工具,从专业词典中获取实体、概念、属性和关系权重;③公文图谱刻画:将实体、概念、公文、关系权重,形成公文内涵知识图谱,将公文、实体、属性,形成公文领域概念图谱;④搜索:根据步骤③中的概念图谱,对用户的查询请求进行识别,返回相关公文。⑤展示:用传统的文本内容或概念图谱、知识图谱的方式,进行相关公文的展示。2.如权利要求1所述的基于知识图谱的公文搜索方法,其特征在于:所述步骤②分为以下步骤:(2.1)抽取术语:对百科数据进行清洗,同时从中抽取大量的术语;(2.2)公文清洗:对公文数据进行清洗;(2.3)形成专业词典:将步骤(2.1)和(2.2)中的公文、术语进行集合;(2.4)实体识别:利用实体识别工具,从词典中获取实体集合,同时利用点互信息公式,补充未识别实体;(2.5)概念识别:根据词性标注,提取实体和概念之间的关键词表示,抽取instanceOf关系,获取概念集合;(2.6)属性分类:将实体集合中的实体、概念集合中的概念进行属性分类;(2.7)实体统计:根据步骤(2.4),在公文发布网站以及百科类网站中,统计出每篇文档中,每个实体出现的次数以及所有实体出现的总次数;(2.8)概念统计:根据步骤(2.5),在公文发布网站以及百科类网站中,累计同一文档中表示同一概念的实体次数,获取同一文档中该概念的出现次数以及所有概念的出现总次数。3.如权利要求2所述的基于知识图谱的公文搜索方法,其特征在于:所述步骤(2.4)中,点互信息公式如下:其中,p(x,y)表示术语...

【专利技术属性】
技术研发人员:熊子奇王鹏
申请(专利权)人:中电科大数据研究院有限公司
类型:发明
国别省市:贵州,52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1