基于句子关联的篇章语义自动识别方法及系统技术方案

技术编号：32561987 阅读：18 留言：0更新日期：2022-03-09 16:46

本发明专利技术公开了一种基于句及子关联的篇章语义自动识别方法及系统，方法包括：按照篇章在标注语料中构建原始句子和篇章语义的对应关系；对原始句子进行缩并得到新句子，构建新句子和篇章语义的对应关系，将新句子和对应的语义标签按照字典的形式保存为1列，生成语义字典；对语义字典进行字典标注，将标注字典中的序列按字输出句子和语义标签2列，根据按字输出的2列句子和语义标签，进行CRF模型的训练，构建CRF模型；通过CRF模型对输入文档进行语义标签预测，通过语义字典对输入文档进行语义标签预测，以根据语义字典确定的语义标签为优先，将通过语义字典查询到的语义标签和CRF模型预测到的语义标签进行融合，得到输入文档的最终语义标签。的最终语义标签。的最终语义标签。

全部详细技术资料下载

【技术实现步骤摘要】
基于句子关联的篇章语义自动识别方法及系统

[0001]本专利技术涉及计算机
，尤其是涉及一种基于句子关联的篇章语义自动识别方法及系统。

技术介绍

[0002]自然语言是人的思想的表达形式，自然语言处理研究人的思维模式，自然语言处理的粒度代表了人的思维层面。在语义技术研究方面，现在研究得比较成熟的是句子级的语义处理技术，比如框架语义、角色语义、依存语义等，句子级表明人对自然语言的研究还停留在最基本的功能层面，就跟螺丝钉一样，篇章语义相当于一台设备；篇章语义研究的滞后，导致自然语言处理技术还无法对宏大工程场景进行有效的研究，包括篇章语义的定义、标注和自动识别。对于word的docx格式文档一般可以通过解析其层次结构获得篇章语义的解析，但是对于很多doc、txt、pdf等格式的文件而言，它们没有层次结构，而要人工进行标注的话是不现实的，因此需要开发一种篇章语义的自动识别的方法。
[0003]目前，现有基于上下文无关的0型句子语义识别技术不能识别具有严格层次和逻辑关系的篇章语义，现有句子级的处理技术是把句子当作一个独立的0型语义单元处理，不考虑句子的上下文的语境，不考虑句子在文章中的位置，这对于类似分词、词性标注这种简单语义的情况是可以的。但是在篇章语义的情况下，整个篇
‑
章
‑
节
‑
段
‑
句作为一个整体组织在一起才能完整地表达场景，其中篇
‑
章
‑
节
‑
段都是由多句子组成，句子之间的顺...

【技术保护点】

【技术特征摘要】
1.一种基于句子关联的篇章语义自动识别方法，其特征在于，包括：按照篇章在标注语料中构建原始句子和篇章语义的对应关系，其中，所述篇章语义按照篇
‑
章
‑
节
‑
段
‑
句
‑
槽的层次形式保存；对所述原始句子进行缩并得到新句子，构建新句子和篇章语义的对应关系，将所述新句子和对应的语义标签按照字典的形式保存为1列，生成语义字典；对所述语义字典进行字典标注，将所述标注字典中的序列按字输出句子和语义标签2列，根据按字输出的2列句子和语义标签，进行CRF模型的训练，构建CRF模型；通过所述CRF模型对输入文档进行语义标签预测，通过所述语义字典对输入文档进行语义标签预测，以根据所述语义字典确定的语义标签为优先，将通过所述语义字典查询到的语义标签和所述CRF模型预测到的语义标签进行融合，得到所述输入文档的最终语义标签。2.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：获取修改后的所述最终语义标签，将其作为标注语料进行保存。3.根据权利要求1所述的方法，其特征在于，按照篇章在标注语料中构建原始句子和篇章语义的对应关系具体包括：读取标注语料，以篇为单位将章节名称和句子整合为1列，调用篇章语义字典，确定篇章名称对应的语义标签，并从所述标注语料中获取句子语义，将所述章节语义和所述句子语义叠加为1列。4.根据权利要求1所述的方法，其特征在于，对所述原始句子进行缩并得到新句子，构建新句子和篇章语义的对应关系，将所述新句子和对应的语义标签按照字典的形式保存为1列，生成语义字典具体包括：对所述原始句子取前后N个字构成缩减后的新句子，将句子前后M句相加为复合的新句子，对所述新句子中的特殊符号进行处理；将新句子和语义标签按照字典的形式保存为1列，生成语义字典。5.根据权利要求1所述的方法，其特征在于，对所述语义字典进行字典标注，将所述标注字典中的序列按字输出句子和语义标签2列，根据按字输出的2列句子和语义标签，进行CRF模型的训练，构建CRF模型具体包括：将所述语义字典按照长词优先排序，建立句子的词序列和对应的语义替换序列，将所述序列按字输出2列保存，其中，两列中间用制表符分开；在cmd下运行crf_learn.exe template CRF_in.txt CRF_model，通过对输入的CRF_in.txt文件进行运算，进行CRF模型的训练，构建名为CRF_model的CRF模型。6.根据权利要求1所述的方法，其特征在于，通过所述CRF模型对输入文档进行语义标签预测，通过所述语义字典对输入文档进行语义标签预测，以根据所述语义字典确定的语义标签为优先，将通过所述语义字典查询到的语义标签和所述CRF模型预测到的语义标签进行融合，得到所述输入文档的最终语义标签具体包括：读取输入文档，将所述输入文档处理到句子粒度，并进行缩并得到新句子，将所述新句子变换为1列，在cmd下执行crf_test
‑
m CRF_model CRF_test.txt>CRF_result.txt，应用CRF模型计算出输出结果，根据输出结果将句子中出现最多的语义标签作为句子的语义...

【专利技术属性】
技术研发人员：侯志强，谭培波，任骥，刘锋，王坚，马青，
申请(专利权)人：北京智通云联科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人