一种基于中文分词技术的应急知识图谱的构建方法及系统技术方案

技术编号:24251599 阅读:50 留言:0更新日期:2020-05-22 23:36
本发明专利技术公开了一种基于中文分词技术的应急知识图谱的构建方法,具体包括以下步骤:S1输入应急信息文本;S2对所述步骤S1中的应急信息文本中的要素进行解析,提取关键数据,利用提取的关键数据构建应急知识库;S3采用多策略结合的中文分词算法对步骤S1中输入的应急信息文本进行分词并判断,输出分词结果;S4将步骤S3中得到分词结果利用检索引擎在所述应急知识库中搜索并进行匹配,匹配成功后输出成果数据;S5根据应急业务体系结合成果数据构建应急知识图谱,输出图谱结果数据。按照应急业务体系构建一个科学全面的应急知识图谱,提高数据匹配速度与分词精度,解决检索效率低下等问题,实现应急知识的共享应用服务。

A construction method and system of emergency knowledge map based on Chinese word segmentation technology

【技术实现步骤摘要】
一种基于中文分词技术的应急知识图谱的构建方法及系统
本专利技术涉及中文分词
,具体涉及一种基于中文分词技术的应急知识图谱的构建方法及系统。
技术介绍
根据国家应急信息化建设的需求,亟需对各类应急信息资源进行汇总分类,构建一个完整规范的应急知识词库,从而形成一个应急行业的知识图谱,为应急信息的共享应用提供支撑。鉴于目前中文的自然语言处理和单一的中文分词算法存在精度低、匹配慢等问题,利用多策略结合的分词技术,能够综合运用各分词技术的优势,有效弥补它们的劣势,构建分层级的中文分词规则,大大提高中文分词和匹配的效率。基于分层级的中文分词规则,结合应急业务体系定制化构造一个面向垂直领域的知识图谱,实现实体(概念)识别、关系抽取、文本检索等功能,真正提升应急领域相关业务的生产力。目前中文分词主要采用以下三大类方法:1.基于词典的方法,对于已经录入在词典中的词可通过文本扫描和匹配法进行分词。但是对于一些未录入词典的新词语以及歧义字段很难进行分词,且匹配速度较慢,在调用人工干预处理的情况下,分词效果仍然不好。2.基于统计的方法,利用词与词的联合出现概率作为分词的依据,建立统计模型,不需要切分词典。不过该方法前期需要大量的训练文本作为建模参数,且实际操作起来计算量非常大,耗时久,不利于快速高效的分词。3.基于理解的方法,通过让计算机模拟人对句子的理解,达到识别词的效果,对判断和处理歧义现象有较好的作用。随着网络用语等语言形式和语言表达方式的日新月异,难以将各种语言信息处理成机器可直接读取的形式,因此目前基于理解的分词方法还处在试验阶段。因此,有必要开发一种基于中文分词技术的应急知识图谱的构建方法,用判断条件对文本进行判别并利用不同分词技术进行分词,简单的分词利用简单的方法,复杂的分词利用复杂的方法,能够很好的提升分词的精准度,同时节约了简单等级的分词时间,提升分词效率。
技术实现思路
本专利技术要解决的技术问题是提供一种基于中文分词技术的应急知识图谱的构建方法,按照应急业务体系构建一个科学全面的应急知识图谱,提高数据匹配速度与分词精度,解决检索效率低下等问题,实现应急知识的共享应用服务。为了解决上述技术问题,本专利技术采用的技术方案是:该基于中文分词技术的应急知识图谱的构建方法,具体包括以下步骤:S1:输入应急信息文本;S2:对所述步骤S1中的应急信息文本中的要素进行解析,提取关键数据,利用提取的关键数据构建应急知识库;S3:采用多策略结合的中文分词算法对所述步骤S1中输入的所述应急信息文本进行分词并判断,输出分词结果;S4:将所述步骤S3中得到分词结果利用检索引擎在所述应急知识库中搜索并进行匹配,匹配成功后输出成果数据;S5:根据应急业务体系结合所述成果数据构建应急知识图谱,输出图谱结果数据。采用上述技术方案,向系统中输入应急信息文本,并对文本进行解析提取关键词及各类要素,将提取的关键词及要素整理形成特征词库以及要素标准数据库;形成特征词库以及要素标准库后,可利用多策略结合的分词技术进行分词,将分词后的关键要素与词库数据进行匹配,匹配成功后输出成果数据,大大提升检索引擎在应急知识库中的搜索效率,并最终形成应急知识图谱;其中多策略中文分词是采用了多种中文分词方式按照条件判断进行组合,构建中文分词层级模型利用多种方式层级结合的方式对应急灾害文本内容进行分词,简单的分词利用简单的方法,复杂的分词利用复杂的方法,能够很好的提升分词的精准度,同时节约了简单等级的分词时间,实现减少歧义,提升分词效率以及精准度。作为本专利技术的优选技术方案,所述步骤S3中多策略结合的中文分词算法包括正向最大匹配和逆向最大匹配方法、利用字词库匹配的中文分词方法、基于频率统计的神经元网络模型分词方法;具体包括以下步骤:S31:利用正向最大匹配和逆向最大匹配方法对所述应急信息文本中的词句进行切分,并与所述应急要素特征词库进行比对,判断是否具有特征字;若没有特征字,则对分词结果进行序列标注,再输出分词结果;若有特征字,则根据特征字进行下一步判断;S32:对具有特征字的词进行统计,统计特征字的个数、顺序、级别;若特征字中具有第一级别中的字词,则与应急要素特征词库对比,判断特征字是否是已存在字词,若是,则直接输出分词结果;若否,则按没有所述第一级别中的字词进行拆分;若特征字中没有所述第一级别中的字词,则进行下一步拆分;S33:利用层级模型对特征字中没有第一级别中的字词进行拆分,拆分完成后,若能识别的,则输出分词结果;若未识别的,则输出未识别的字词;S34:再对步骤S33中输出的未识别的字词利用神经元网络模型统计方法进行分词,输出分词结果。其中优化的正向最大匹配和逆向最大匹配方法为:为降低正向最大匹配法和逆向最大匹配法各自存在的匹配错误率,提高系统分词的准确度,采用正向最大匹配法和逆向最大匹配法相结合的分词方法(双向匹配法),并针对两种分词方法中出现的歧义词通过遍历训练文本集的方式,统计出正确切分频率,把最大的分词结果作为分词的正确结果,消除歧义,优化双向匹配法;其具体步骤如下:先根据标点对文档进行粗切分,把文档分解成若干个句子,然后再对这些句子用正向最大匹配法和逆向最大匹配法进行扫描切分。如果两种分词方法得到的匹配结果相同,则认为分词正确;如果匹配结果中出现歧义词,则找出在分词文本中出现的所有相同的词连接,以这些词连接被正确分词比例最大的作为消除歧义的结果;否则,按最小集处理。其中基于频率统计的神经元网络模型分词方法为:神经元网络模型统计方法主要是利用词与词的联合出现概率作为分词的依据,给中文字符序列中的每一个字赋予一个特定的词位标签,从已经正确分词的训练数据中自动学习到特征,通过训练模型对数据进行分词,能够有效识别未登录词。本神经元网络模型结合较常用的四词位标签集,定义新的标签集和标签含义,判断每一个分词字符在新的词位标签集的分类。作为本专利技术的优选技术方案,所述步骤S32中特征字级别包括第一级别,所述第一级别包括1级、2级、3级,所述1级为包含灾害种类的特征要素;所述2级为包含灾害地址数据的特征要素;所述3级为包含灾害时间的特征要素;没有在所述第一级别中的记为4级,所述4级为不包含1级、2级、3级的特征要素的特征字级别。作为本专利技术的优选技术方案,所述步骤S33中利用层级模型进行拆分,所述层级模型按照规则分为第一层级、第二层级和第三层级,所述第一层级包括数组A应急灾害种类和未能识别词;所述第二层级包括数组B应急灾害地址数据和未能识别词;所述第三层级包括数组C应急灾害时间和未能识别词。作为本专利技术的优选技术方案,所述步骤S33利用层级模型对特征字进行拆分的具体步骤为:S331:首先与所述第一层级进行识别,若能识别,则输出分词结果;若未识别,则进行第二层级识别;S332:若第二层级能识别,则输出分词结果;若未识别,则进行第三层级识别;S333:若第三层级能识别,则输出分词结果;若未本文档来自技高网
...

【技术保护点】
1.一种基于中文分词技术的应急知识图谱的构建方法,其特征在于,具体包括以下步骤:/nS1:输入应急信息文本;/nS2:对所述步骤S1中的应急信息文本中的要素进行解析,提取关键数据,利用提取的关键数据构建应急知识库;/nS3:采用多策略结合的中文分词算法对所述步骤S1中输入的所述应急信息文本进行分词并判断,输出分词结果;/nS4:将所述步骤S3中得到分词结果利用检索引擎在所述应急知识库中搜索并进行匹配,匹配成功后输出成果数据;/nS5:根据应急业务体系结合所述成果数据构建应急知识图谱,输出图谱结果数据;/n所述步骤S3中多策略结合的中文分词算法包括正向最大匹配和逆向最大匹配方法、利用字词库匹配的中文分词方法、基于频率统计的神经元网络模型分词方法;具体包括以下步骤:/nS31:利用正向最大匹配和逆向最大匹配方法对所述应急信息文本中的词句进行切分,并与所述应急要素特征词库进行比对,判断是否具有特征字;若没有特征字,则对分词结果进行序列标注,再输出分词结果;若有特征字,则根据特征字进行下一步判断;/nS32:对具有特征字的词进行统计,统计特征字的个数、顺序、级别;若特征字中具有第一级别中的字词,则与应急要素特征词库对比,判断特征字是否是已存在字词,若是,则直接输出分词结果;若否,则按没有所述第一级别中的字词进行拆分;若特征字中没有所述第一级别中的字词,则进行下一步拆分;/nS33:利用层级模型对特征字中没有第一级别中的字词进行拆分,拆分完成后,若能识别的,则输出分词结果;若未识别的,则输出未识别的字词;/nS34:再对步骤S33中输出的未识别的字词利用神经元网络模型统计方法进行分词,输出分词结果。/n...

【技术特征摘要】
1.一种基于中文分词技术的应急知识图谱的构建方法,其特征在于,具体包括以下步骤:
S1:输入应急信息文本;
S2:对所述步骤S1中的应急信息文本中的要素进行解析,提取关键数据,利用提取的关键数据构建应急知识库;
S3:采用多策略结合的中文分词算法对所述步骤S1中输入的所述应急信息文本进行分词并判断,输出分词结果;
S4:将所述步骤S3中得到分词结果利用检索引擎在所述应急知识库中搜索并进行匹配,匹配成功后输出成果数据;
S5:根据应急业务体系结合所述成果数据构建应急知识图谱,输出图谱结果数据;
所述步骤S3中多策略结合的中文分词算法包括正向最大匹配和逆向最大匹配方法、利用字词库匹配的中文分词方法、基于频率统计的神经元网络模型分词方法;具体包括以下步骤:
S31:利用正向最大匹配和逆向最大匹配方法对所述应急信息文本中的词句进行切分,并与所述应急要素特征词库进行比对,判断是否具有特征字;若没有特征字,则对分词结果进行序列标注,再输出分词结果;若有特征字,则根据特征字进行下一步判断;
S32:对具有特征字的词进行统计,统计特征字的个数、顺序、级别;若特征字中具有第一级别中的字词,则与应急要素特征词库对比,判断特征字是否是已存在字词,若是,则直接输出分词结果;若否,则按没有所述第一级别中的字词进行拆分;若特征字中没有所述第一级别中的字词,则进行下一步拆分;
S33:利用层级模型对特征字中没有第一级别中的字词进行拆分,拆分完成后,若能识别的,则输出分词结果;若未识别的,则输出未识别的字词;
S34:再对步骤S33中输出的未识别的字词利用神经元网络模型统计方法进行分词,输出分词结果。


2.根据权利要求1所述的基于中文分词技术的应急知识图谱的构建方法,其特征在于,所述步骤S32中特征字级别包括第一级别,所述第一级别包括1级、2级、3级,所述1级为包含灾害种类的特征要素;所述2级为包含灾害地址数据的特征要素;所述3级为包含灾害时间的特征要素;没有在所述第一级别中的记为4级,所述4级为不包含1级、2级、3级的特征...

【专利技术属性】
技术研发人员:郝本明徐忠建朱必亮冯建亮孙海峰魏明春
申请(专利权)人:速度时空信息科技股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1