基于句子关联的篇章语义自动识别方法及系统技术方案

技术编号:32561987 阅读:18 留言:0更新日期:2022-03-09 16:46
本发明专利技术公开了一种基于句及子关联的篇章语义自动识别方法及系统,方法包括:按照篇章在标注语料中构建原始句子和篇章语义的对应关系;对原始句子进行缩并得到新句子,构建新句子和篇章语义的对应关系,将新句子和对应的语义标签按照字典的形式保存为1列,生成语义字典;对语义字典进行字典标注,将标注字典中的序列按字输出句子和语义标签2列,根据按字输出的2列句子和语义标签,进行CRF模型的训练,构建CRF模型;通过CRF模型对输入文档进行语义标签预测,通过语义字典对输入文档进行语义标签预测,以根据语义字典确定的语义标签为优先,将通过语义字典查询到的语义标签和CRF模型预测到的语义标签进行融合,得到输入文档的最终语义标签。的最终语义标签。的最终语义标签。

【技术实现步骤摘要】
基于句子关联的篇章语义自动识别方法及系统


[0001]本专利技术涉及计算机
,尤其是涉及一种基于句子关联的篇章语义自动识别方法及系统。

技术介绍

[0002]自然语言是人的思想的表达形式,自然语言处理研究人的思维模式,自然语言处理的粒度代表了人的思维层面。在语义技术研究方面,现在研究得比较成熟的是句子级的语义处理技术,比如框架语义、角色语义、依存语义等,句子级表明人对自然语言的研究还停留在最基本的功能层面,就跟螺丝钉一样,篇章语义相当于一台设备;篇章语义研究的滞后,导致自然语言处理技术还无法对宏大工程场景进行有效的研究,包括篇章语义的定义、标注和自动识别。对于word的docx格式文档一般可以通过解析其层次结构获得篇章语义的解析,但是对于很多doc、txt、pdf等格式的文件而言,它们没有层次结构,而要人工进行标注的话是不现实的,因此需要开发一种篇章语义的自动识别的方法。
[0003]目前,现有基于上下文无关的0型句子语义识别技术不能识别具有严格层次和逻辑关系的篇章语义,现有句子级的处理技术是把句子当作一个独立的0型语义单元处理,不考虑句子的上下文的语境,不考虑句子在文章中的位置,这对于类似分词、词性标注这种简单语义的情况是可以的。但是在篇章语义的情况下,整个篇







句作为一个整体组织在一起才能完整地表达场景,其中篇





段都是由多句子组成,句子之间的顺序决定了句子的意义,句子在相应的层次结构中取得语义,离开了这个结构,句子的意义是不明确的。篇







句在工程上对应着不同粒度的场景,比如在石化业务中对应着业务域

业务主题

研究对象

业务活动等,或者和国家

总公司

分公司

研究室这样的层次结构对应。由于在工程中句子只是最小的语义单元代表最小的活动或者功能,它不能独立于整个活动的框架而孤立地存在,这意味着句子要和它的上下文一起进行分析才能决定句子的篇章语义。
[0004]此外,现有的算法无论是统计学习还是深度学习都无法处理长句子。工程中的单句子一般都很长,而多句子连接起来就更长,比如常见的2个句子“本井由地质录井二分公司SL223录井队承担地质录井任务,按设计要求自二开至井底进行了钻时、综合录井、岩屑、井壁取心、荧光、钻井液、岩石热解地化、二维定量荧光、岩矿鉴定、罐顶气轻烃气相色谱分析、热蒸发烃色谱、核磁共振、古生物分析、荧光薄片等各项录井工作,全井工作量统计见表1,施工过程中还进行了迟到时间及泥(页)岩密度的测定,并在钻井过程中及时完成岩样汇集工作。录井过程中SL

ADVANTAGE型综合录井仪工作正常,充分发挥了综合录井仪各项采集功能,齐全准确地收集了各项地质资料、气测资料及工程参数,圆满完成了设计任务。”其中第一句包含180个字符,在专业文献中,句子一般都很长,平均在80个字以上,一句就超出了统计学习或者CRF的输入句子宽度小于50个字符的限制,更无法处理连续几句连接在一起的段落。CRF由于只能处理就近+

4个字符之间的关联,算法机理上对长程关联处理能力弱;深度学习在输入符数大于100之后,计算2阶梯度矩阵的运算量非常大,不能满足系统速
度性能的要求。

技术实现思路

[0005]本专利技术的目的在于提供一种基于句子关联的篇章语义自动识别方法及系统,旨在解决现有技术中的上述问题。
[0006]本专利技术提供一种基于句子关联的篇章语义自动识别方法,包括:
[0007]按照篇章在标注语料中构建原始句子和篇章语义的对应关系,其中,所述篇章语义按照篇









槽的层次形式保存;
[0008]对所述原始句子进行缩并得到新句子,构建新句子和篇章语义的对应关系,将所述新句子和对应的语义标签按照字典的形式保存为1列,生成语义字典;
[0009]对所述语义字典进行字典标注,将所述标注字典中的序列按字输出句子和语义标签2列,根据按字输出的2列句子和语义标签,进行CRF模型的训练,构建CRF模型;
[0010]通过所述CRF模型对输入文档进行语义标签预测,通过所述语义字典对输入文档进行语义标签预测,以根据所述语义字典确定的语义标签为优先,将通过所述语义字典查询到的语义标签和所述CRF模型预测到的语义标签进行融合,得到所述输入文档的最终语义标签。
[0011]本专利技术提供一种基于句子关联的篇章语义自动识别系统,包括:
[0012]数据层,用于保存生的标注语料、语义字典、篇章语义文档、以及标注后熟的标注语料;
[0013]数据处理层,用于按照篇章在标注语料中构建原始句子和篇章语义的对应关系,其中,所述篇章语义按照篇









槽的层次形式保存;对所述原始句子进行缩并得到新句子,构建新句子和篇章语义的对应关系,将所述新句子和对应的语义标签按照字典的形式保存为1列,生成语义字典;对所述语义字典进行字典标注,将所述标注字典中的序列按字输出句子和语义标签2列,根据按字输出的2列句子和语义标签,进行CRF模型的训练,构建CRF模型;通过所述CRF模型对输入文档进行语义标签预测,通过所述语义字典对输入文档进行语义标签预测,以根据所述语义字典确定的语义标签为优先,将通过所述语义字典查询到的语义标签和所述CRF模型预测到的语义标签进行融合,得到所述输入文档的最终语义标签;
[0014]应用层,用于实现与用户的交互操作。
[0015]采用本专利技术实施例,将复杂层次结构等效为单层的序列进行处理,能够实现对无标签文献的篇章语义识别,恢复了纯本文文献的层次结构,重新赋予了文本篇章语义,提高了人们对文献的理解能力,扩大了人们认识世界的视野。
[0016]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0017]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的
附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1是本专利技术实施例的基于句子关联的篇章语义自动识别方法的流程图;
[0019]图2是本专利技术实施例的基于句子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于句子关联的篇章语义自动识别方法,其特征在于,包括:按照篇章在标注语料中构建原始句子和篇章语义的对应关系,其中,所述篇章语义按照篇









槽的层次形式保存;对所述原始句子进行缩并得到新句子,构建新句子和篇章语义的对应关系,将所述新句子和对应的语义标签按照字典的形式保存为1列,生成语义字典;对所述语义字典进行字典标注,将所述标注字典中的序列按字输出句子和语义标签2列,根据按字输出的2列句子和语义标签,进行CRF模型的训练,构建CRF模型;通过所述CRF模型对输入文档进行语义标签预测,通过所述语义字典对输入文档进行语义标签预测,以根据所述语义字典确定的语义标签为优先,将通过所述语义字典查询到的语义标签和所述CRF模型预测到的语义标签进行融合,得到所述输入文档的最终语义标签。2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:获取修改后的所述最终语义标签,将其作为标注语料进行保存。3.根据权利要求1所述的方法,其特征在于,按照篇章在标注语料中构建原始句子和篇章语义的对应关系具体包括:读取标注语料,以篇为单位将章节名称和句子整合为1列,调用篇章语义字典,确定篇章名称对应的语义标签,并从所述标注语料中获取句子语义,将所述章节语义和所述句子语义叠加为1列。4.根据权利要求1所述的方法,其特征在于,对所述原始句子进行缩并得到新句子,构建新句子和篇章语义的对应关系,将所述新句子和对应的语义标签按照字典的形式保存为1列,生成语义字典具体包括:对所述原始句子取前后N个字构成缩减后的新句子,将句子前后M句相加为复合的新句子,对所述新句子中的特殊符号进行处理;将新句子和语义标签按照字典的形式保存为1列,生成语义字典。5.根据权利要求1所述的方法,其特征在于,对所述语义字典进行字典标注,将所述标注字典中的序列按字输出句子和语义标签2列,根据按字输出的2列句子和语义标签,进行CRF模型的训练,构建CRF模型具体包括:将所述语义字典按照长词优先排序,建立句子的词序列和对应的语义替换序列,将所述序列按字输出2列保存,其中,两列中间用制表符分开;在cmd下运行crf_learn.exe template CRF_in.txt CRF_model,通过对输入的CRF_in.txt文件进行运算,进行CRF模型的训练,构建名为CRF_model的CRF模型。6.根据权利要求1所述的方法,其特征在于,通过所述CRF模型对输入文档进行语义标签预测,通过所述语义字典对输入文档进行语义标签预测,以根据所述语义字典确定的语义标签为优先,将通过所述语义字典查询到的语义标签和所述CRF模型预测到的语义标签进行融合,得到所述输入文档的最终语义标签具体包括:读取输入文档,将所述输入文档处理到句子粒度,并进行缩并得到新句子,将所述新句子变换为1列,在cmd下执行crf_test

m CRF_model CRF_test.txt>CRF_result.txt,应用CRF模型计算出输出结果,根据输出结果将句子中出现最多的语义标签作为句子的语义...

【专利技术属性】
技术研发人员:侯志强谭培波任骥刘锋王坚马青
申请(专利权)人:北京智通云联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1