当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于语义解析的时间表达式标准化方法技术

技术编号:24854820 阅读:87 留言:0更新日期:2020-07-10 19:08
本发明专利技术公开了一种基于语义解析的时间表达式标准化方法。该方法为:首先构建时间表达式中的语义项,包括语义计算函数和语义值;然后使用训练集标注的时间表达式标准化值和其基准时间值,穷举其所有可能的语义组合;接着将时间表达式语义项分配问题建模为整数规划问题,通过优化算法完成底层语义项的自动分配;最后使用启发式规则自动组合语义项,解析待标准化的时间表达式语义,得到其标准化值。本发明专利技术无需手工分配与组合底层语义项,减少了人力成本,提高了时间表达式标准化的灵活性和泛化能力。

【技术实现步骤摘要】
一种基于语义解析的时间表达式标准化方法
本专利技术涉及自然语言处理
,特别是一种基于语义解析的时间表达式标准化方法。
技术介绍
随着自然语言处理尤其是自然语言理解领域的飞速发展,理解自然语言中的时间表达式变得越来越重要。能够正确有效地理解时间表达式的含义,对阅读理解、问答系统等下游任务的结果都有着很大的提升。为了系统性地研究时间表达式,人们将研究任务分为时间表达式规范制定和对规范的时间表达式的识别与标准化两个方面。在时间表达式理解需求的推动下,TIMEX3规范应运而生,它公开发表在评测任务SemEval-2013的第一项任务TempEval-3中。该规范继承并扩展了国际标准化组织的国际标准ISO8601(全称为《数据存储和交换形式·信息交换·日期和时间的表示方法》)以及原有的TIMEX2规范,规定了时间表达式及其标准化值的标注标准。在此规范下,理解时间表达式的问题转化成了求该时间表达式的标准化值的问题,便于理解的同时也方便了运算,如“1January2020”所对应的标准化值是“2020-01-01”,以此时间为基准时间的表达式“nextmonth”对应的标准化值则是“2020-02”。目前,在时间表达式标准化方面已有许多优秀的工作,主要方法分为基于规则的和基于语义解析的两类。斯坦福大学自然语言处理小组发布的SUTime,在标准化工作上采用的是手工定制规则的方法,虽然规则繁琐耗费人力,但准确率较高;华盛顿大学发布的UWTime则是基于组合范畴文法的语义解析方法,它通过定义底层语义,利用机器学习训练上下文相关的语义解析器,同样取得了不错的效果。而由于中文时间表达式缺少具体的规范定义,许多标准化工作都在探索阶段。专利1(一种面向知识图谱构建的文本时间抽取与规范方法,公开号CN108304523A)公开的面向知识图谱构建的文本时间抽取与规范方法,利用时间基元构建模板库,并使用启发式策略对其进行标准化。专利2(口语化时间标准化控制方法、装置、计算机设备及存储介质,公开号CN109800338A)公开的口语化时间标准化控制方法,先对口语化的时间表达式进行停用词去除,再使用定义好的模板通过正则表达式提取相应槽值,从而完成标准化过程。总的来说,现有的各种时间表达式标准化方法中,都需要一些底层语义或规则的手工分配与组合。因此,如何自动地分配语义、组合语义,从而减少人工成本,提高准确率,成为时间表达式标准化过程中亟需解决的问题。
技术实现思路
本专利技术的目的在于提供一种能够自动分配语义项、组合语义项、人工成本低、准确率高的基于语义解析的时间表达式标准化方法。实现本专利技术目的的技术解决方案为:一种基于语义解析的时间表达式标准化方法,包括以下步骤:步骤1、构建时间表达式中的语义项,包括语义计算函数和语义值;步骤2、使用训练集标注的时间表达式标准化值和基准时间值,穷举所有可能的语义组合;步骤3、将时间表达式语义项分配问题建模为整数规划问题,通过优化法完成底层语义项的自动分配;步骤4、使用启发式规则自动组合语义项,解析待标准化的时间表达式语义,得到标准化值。本专利技术与现有技术相比,其显著优点在于:(1)时间表达式标准化过程中能够自动分配语义项、组合语义项,为时间表达式标准化过程提供了语义基础;(2)减少人力的同时也提高了时间表达式标准化的效率,人工成本低、准确率高,能够处理更多的时间表达式。附图说明图1为本专利技术基于语义解析的时间表达式标准化方法的流程框图。图2为本专利技术实施例中语义项自动分配的流程示意图。图3为本专利技术实施例中语义项自动组合的流程示意图。具体实施方式本专利技术基于语义解析的时间表达式标准化方法,包括以下步骤:步骤1、构建时间表达式中的语义项,包括语义计算函数和语义值;步骤2、使用训练集标注的时间表达式标准化值和基准时间值,穷举所有可能的语义组合;步骤3、将时间表达式语义项分配问题建模为整数规划问题,通过优化法完成底层语义项的自动分配;步骤4、使用启发式规则自动组合语义项,解析待标准化的时间表达式语义,得到标准化值。进一步地,步骤1所述的构建时间表达式中的语义项,包括语义计算函数和语义值,具体如下:按照TIMEX3时间表达式规范,构建时间表达式中需要用到的语义项,包括语义计算函数和语义值,即对时间值的修改、增减、继承操作,以及所述操作的参数值,通过在已有语义项的基础上进行修改或增加得到。进一步地,步骤2所述的使用训练集标注的时间表达式标准化值和基准时间值,穷举所有可能的语义组合,具体如下:根据训练集中时间表达式的标准化值和基准时间值,计算出该标准化值所使用的表达式语义和基准时间值。进一步地,步骤3所述的将时间表达式语义项分配问题建模为整数规划问题,通过优化法完成底层语义项的自动分配,具体如下:步骤3.1、训练集中包括时间表达式里所有单词构成的词表T、原子的语义项集合S和时间表达式集合E,计算T到S的映射A,如果一个时间表达式在映射A下可满足,则该时间表达式内部单词所对应的语义项组合的一个表达式语义能够得到标准化值,即:其中e为一个时间表达式;M为底层语义项可组合成的所有表达式语义集;mk为一个可组合成的表达式语义;SAT(e,A)即为e是否在映射A下可满足;SAT(e,mk,A)即为e的一个可组合成的表达式语义mk在映射下可满足;当且仅当表达式语义mk能被该时间表达式内部词分配的语义项组合得到时,表达式语义mk能得到标准化值,即:其中ski为表达式语义mk的一个原子语义项;tj为该时间表达式内部的单词;公式的含义为,对所有原子语义项ski,都存A在一个tj在A中映射得到;步骤3.2、加入全局惩罚项,防止原子语义项分配给不属于它的单词:其中M0为底层语义组合成可得到标准化值的表达式语义集;为统计该时间表达式e内部所有单词对应的语义项s不出现在表达式语义mk中的次数;Penalty(e,A)即为e在映射A上的惩罚项;步骤3.3、加入正则项,即原子语义项被分配的总次数||A||1,则最终的目标函数即为最大化可满足的时间表达式数量,同时减小惩罚项和正则项,即:其中α、β为经验参数;步骤3.4、建模完成后,求解得到的最优化映射A即为语义项分配结果,将语义项分配结果输出到底层语义项文件。进一步地,步骤4所述的使用启发式规则自动组合语义项,解析待标准化的时间表达式语义,得到标准化值,具体如下:步骤4.1、判断时间表达式类型;步骤4.2、根据时间表达式类型增减相关语义计算函数;步骤4.3、使用启发式规则进行语义计算函数的自动填参;步骤4.4、判断语义计算函数填参是否完整且语义值均被填入,若是,则进入步骤4.5;若否,则更换底层语义项重新组合并返回步骤4.2;步骤4.5、解析表达式语义并输出标准化值。进一步地本文档来自技高网
...

【技术保护点】
1.一种基于语义解析的时间表达式标准化方法,其特征在于,包括以下步骤:/n步骤1、构建时间表达式中的语义项,包括语义计算函数和语义值;/n步骤2、使用训练集标注的时间表达式标准化值和基准时间值,穷举所有可能的语义组合;/n步骤3、将时间表达式语义项分配问题建模为整数规划问题,通过优化法完成底层语义项的自动分配;/n步骤4、使用启发式规则自动组合语义项,解析待标准化的时间表达式语义,得到标准化值。/n

【技术特征摘要】
1.一种基于语义解析的时间表达式标准化方法,其特征在于,包括以下步骤:
步骤1、构建时间表达式中的语义项,包括语义计算函数和语义值;
步骤2、使用训练集标注的时间表达式标准化值和基准时间值,穷举所有可能的语义组合;
步骤3、将时间表达式语义项分配问题建模为整数规划问题,通过优化法完成底层语义项的自动分配;
步骤4、使用启发式规则自动组合语义项,解析待标准化的时间表达式语义,得到标准化值。


2.根据权利要求1所述的基于语义解析的时间表达式标准化方法,其特征在于,步骤1所述的构建时间表达式中的语义项,包括语义计算函数和语义值,具体如下:
按照TIMEX3时间表达式规范,构建时间表达式中需要用到的语义项,包括语义计算函数和语义值,即对时间值的修改、增减、继承操作,以及所述操作的参数值,通过在已有语义项的基础上进行修改或增加得到。


3.根据权利要求1所述的基于语义解析的时间表达式标准化方法,其特征在于,步骤2所述的使用训练集标注的时间表达式标准化值和基准时间值,穷举所有可能的语义组合,具体如下:
根据训练集中时间表达式的标准化值和基准时间值,计算出该标准化值所使用的表达式语义和基准时间值。


4.根据权利要求1所述的基于语义解析的时间表达式标准化方法,其特征在于,步骤3所述的将时间表达式语义项分配问题建模为整数规划问题,通过优化法完成底层语义项的自动分配,具体如下:
步骤3.1、训练集中包括时间表达式里所有单词构成的词表T、原子的语义项集合S和时间表达式集合E,计算T到S的映射A,如果一个时间表达式在映射A下可满足,则该时间表达式内部单词所对应的语义项组合的一个表达式语义能够得到标准化值,即:



其中e为一个时间表达式;M为底层语义项可组合成的所有表达式语义集;mk为一个可组合成的表达式语义;SAT(e,A)即为e是否在映射A下可满足;SAT(e,mk,A)即为e的一个可组合成的表达式语义mk在映射下可满足;
当且仅当表达式语义mk能被该时间表达式内部词分配的语义项组合得到时,表达式语义mk能得到标准化值,即:



其中ski为表达式语义mk的一个原子语义项;tj为该时间表达式内部的单词;...

【专利技术属性】
技术研发人员:高冠吉丁文韬瞿裕忠
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1