一种基于中文分词技术的应急知识图谱的构建方法及系统技术方案

技术编号：24251599 阅读：50 留言：0更新日期：2020-05-22 23:36

本发明专利技术公开了一种基于中文分词技术的应急知识图谱的构建方法，具体包括以下步骤：S1输入应急信息文本；S2对所述步骤S1中的应急信息文本中的要素进行解析，提取关键数据，利用提取的关键数据构建应急知识库；S3采用多策略结合的中文分词算法对步骤S1中输入的应急信息文本进行分词并判断，输出分词结果；S4将步骤S3中得到分词结果利用检索引擎在所述应急知识库中搜索并进行匹配，匹配成功后输出成果数据；S5根据应急业务体系结合成果数据构建应急知识图谱，输出图谱结果数据。按照应急业务体系构建一个科学全面的应急知识图谱，提高数据匹配速度与分词精度，解决检索效率低下等问题，实现应急知识的共享应用服务。

A construction method and system of emergency knowledge map based on Chinese word segmentation technology

全部详细技术资料下载

【技术实现步骤摘要】
一种基于中文分词技术的应急知识图谱的构建方法及系统
本专利技术涉及中文分词
，具体涉及一种基于中文分词技术的应急知识图谱的构建方法及系统。
技术介绍
根据国家应急信息化建设的需求，亟需对各类应急信息资源进行汇总分类，构建一个完整规范的应急知识词库，从而形成一个应急行业的知识图谱，为应急信息的共享应用提供支撑。鉴于目前中文的自然语言处理和单一的中文分词算法存在精度低、匹配慢等问题，利用多策略结合的分词技术，能够综合运用各分词技术的优势，有效弥补它们的劣势，构建分层级的中文分词规则，大大提高中文分词和匹配的效率。基于分层级的中文分词规则，结合应急业务体系定制化构造一个面向垂直领域的知识图谱，实现实体（概念）识别、关系抽取、文本检索等功能，真正提升应急领域相关业务的生产力。目前中文分词主要采用以下三大类方法：1.基于词典的方法，对于已经录入在词典中的词可通过文本扫描和匹配法进行分词。但是对于一些未录入词典的新词语以及歧义字段很难进行分词，且匹配速度较慢，在调用人工干预处理的情况下，分词效果仍然不好。2.基于统计的方法，利用词与词的联合出现概率作为分词的依据，建立统计模型，不需要切分词典。不过该方法前期需要大量的训练文本作为建模参数，且实际操作起来计算量非常大，耗时久，不利于快速高效的分词。3.基于理解的方法，通过让计算机模拟人对句子的理解，达到识别词的效果，对判断和处理歧义现象有较好的作用。随着网络用语等语言形式和语言表达方式的日新月异，难以将各种语言信息处理成机器可直接读取的形式，因...

【技术保护点】
1.一种基于中文分词技术的应急知识图谱的构建方法，其特征在于，具体包括以下步骤：/nS1：输入应急信息文本；/nS2：对所述步骤S1中的应急信息文本中的要素进行解析，提取关键数据，利用提取的关键数据构建应急知识库；/nS3：采用多策略结合的中文分词算法对所述步骤S1中输入的所述应急信息文本进行分词并判断，输出分词结果；/nS4：将所述步骤S3中得到分词结果利用检索引擎在所述应急知识库中搜索并进行匹配，匹配成功后输出成果数据；/nS5：根据应急业务体系结合所述成果数据构建应急知识图谱，输出图谱结果数据；/n所述步骤S3中多策略结合的中文分词算法包括正向最大匹配和逆向最大匹配方法、利用字词库匹配的中文分词方法、基于频率统计的神经元网络模型分词方法；具体包括以下步骤：/nS31：利用正向最大匹配和逆向最大匹配方法对所述应急信息文本中的词句进行切分，并与所述应急要素特征词库进行比对，判断是否具有特征字；若没有特征字，则对分词结果进行序列标注，再输出分词结果；若有特征字，则根据特征字进行下一步判断；/nS32：对具有特征字的词进行统计，统计特征字的个数、顺序、级别；若特征字中具有第一级别中的字词...

【技术特征摘要】
1.一种基于中文分词技术的应急知识图谱的构建方法，其特征在于，具体包括以下步骤：
S1：输入应急信息文本；
S2：对所述步骤S1中的应急信息文本中的要素进行解析，提取关键数据，利用提取的关键数据构建应急知识库；
S3：采用多策略结合的中文分词算法对所述步骤S1中输入的所述应急信息文本进行分词并判断，输出分词结果；
S4：将所述步骤S3中得到分词结果利用检索引擎在所述应急知识库中搜索并进行匹配，匹配成功后输出成果数据；
S5：根据应急业务体系结合所述成果数据构建应急知识图谱，输出图谱结果数据；
所述步骤S3中多策略结合的中文分词算法包括正向最大匹配和逆向最大匹配方法、利用字词库匹配的中文分词方法、基于频率统计的神经元网络模型分词方法；具体包括以下步骤：
S31：利用正向最大匹配和逆向最大匹配方法对所述应急信息文本中的词句进行切分，并与所述应急要素特征词库进行比对，判断是否具有特征字；若没有特征字，则对分词结果进行序列标注，再输出分词结果；若有特征字，则根据特征字进行下一步判断；
S32：对具有特征字的词进行统计，统计特征字的个数、顺序、级别；若特征字中具有第一级别中的字词，则与应急要素特征词库对比，判断特征字是否是已存在字词，若是，则直接输出分词结果；若否，则按没有所述第一级别中的字词进行拆分；若特征字中没有所述第一级别中的字词，则进行下一步拆分；
S33：利用层级模型对特征字中没有第一级别中的字词进行拆分，拆分完成后，若能识别的，则输出分词结果；若未识别的，则输出未识别的字词；
S34：再对步骤S33中输出的未识别的字词利用神经元网络模型统计方法进行分词，输出分词结果。

2.根据权利要求1所述的基于中文分词技术的应急知识图谱的构建方法，其特征在于，所述步骤S32中特征字级别包括第一级别，所述第一级别包括1级、2级、3级，所述1级为包含灾害种类的特征要素；所述2级为包含灾害地址数据的特征要素；所述3级为包含灾害时间的特征要素；没有在所述第一级别中的记为4级，所述4级为不包含1级、2级、3级的特征...

【专利技术属性】
技术研发人员：郝本明，徐忠建，朱必亮，冯建亮，孙海峰，魏明春，
申请(专利权)人：速度时空信息科技股份有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人