【技术实现步骤摘要】
一种基于语义解析的时间表达式标准化方法
本专利技术涉及自然语言处理
,特别是一种基于语义解析的时间表达式标准化方法。
技术介绍
随着自然语言处理尤其是自然语言理解领域的飞速发展,理解自然语言中的时间表达式变得越来越重要。能够正确有效地理解时间表达式的含义,对阅读理解、问答系统等下游任务的结果都有着很大的提升。为了系统性地研究时间表达式,人们将研究任务分为时间表达式规范制定和对规范的时间表达式的识别与标准化两个方面。在时间表达式理解需求的推动下,TIMEX3规范应运而生,它公开发表在评测任务SemEval-2013的第一项任务TempEval-3中。该规范继承并扩展了国际标准化组织的国际标准ISO8601(全称为《数据存储和交换形式·信息交换·日期和时间的表示方法》)以及原有的TIMEX2规范,规定了时间表达式及其标准化值的标注标准。在此规范下,理解时间表达式的问题转化成了求该时间表达式的标准化值的问题,便于理解的同时也方便了运算,如“1January2020”所对应的标准化值是“2020-01-01”,以此时间为基准时间的表达式“nextmonth”对应的标准化值则是“2020-02”。目前,在时间表达式标准化方面已有许多优秀的工作,主要方法分为基于规则的和基于语义解析的两类。斯坦福大学自然语言处理小组发布的SUTime,在标准化工作上采用的是手工定制规则的方法,虽然规则繁琐耗费人力,但准确率较高;华盛顿大学发布的UWTime则是基于组合范畴文法的语义解析方法,它通过定义底层语义,利用机器学习训 ...
【技术保护点】
1.一种基于语义解析的时间表达式标准化方法,其特征在于,包括以下步骤:/n步骤1、构建时间表达式中的语义项,包括语义计算函数和语义值;/n步骤2、使用训练集标注的时间表达式标准化值和基准时间值,穷举所有可能的语义组合;/n步骤3、将时间表达式语义项分配问题建模为整数规划问题,通过优化法完成底层语义项的自动分配;/n步骤4、使用启发式规则自动组合语义项,解析待标准化的时间表达式语义,得到标准化值。/n
【技术特征摘要】
1.一种基于语义解析的时间表达式标准化方法,其特征在于,包括以下步骤:
步骤1、构建时间表达式中的语义项,包括语义计算函数和语义值;
步骤2、使用训练集标注的时间表达式标准化值和基准时间值,穷举所有可能的语义组合;
步骤3、将时间表达式语义项分配问题建模为整数规划问题,通过优化法完成底层语义项的自动分配;
步骤4、使用启发式规则自动组合语义项,解析待标准化的时间表达式语义,得到标准化值。
2.根据权利要求1所述的基于语义解析的时间表达式标准化方法,其特征在于,步骤1所述的构建时间表达式中的语义项,包括语义计算函数和语义值,具体如下:
按照TIMEX3时间表达式规范,构建时间表达式中需要用到的语义项,包括语义计算函数和语义值,即对时间值的修改、增减、继承操作,以及所述操作的参数值,通过在已有语义项的基础上进行修改或增加得到。
3.根据权利要求1所述的基于语义解析的时间表达式标准化方法,其特征在于,步骤2所述的使用训练集标注的时间表达式标准化值和基准时间值,穷举所有可能的语义组合,具体如下:
根据训练集中时间表达式的标准化值和基准时间值,计算出该标准化值所使用的表达式语义和基准时间值。
4.根据权利要求1所述的基于语义解析的时间表达式标准化方法,其特征在于,步骤3所述的将时间表达式语义项分配问题建模为整数规划问题,通过优化法完成底层语义项的自动分配,具体如下:
步骤3.1、训练集中包括时间表达式里所有单词构成的词表T、原子的语义项集合S和时间表达式集合E,计算T到S的映射A,如果一个时间表达式在映射A下可满足,则该时间表达式内部单词所对应的语义项组合的一个表达式语义能够得到标准化值,即:
其中e为一个时间表达式;M为底层语义项可组合成的所有表达式语义集;mk为一个可组合成的表达式语义;SAT(e,A)即为e是否在映射A下可满足;SAT(e,mk,A)即为e的一个可组合成的表达式语义mk在映射下可满足;
当且仅当表达式语义mk能被该时间表达式内部词分配的语义项组合得到时,表达式语义mk能得到标准化值,即:
其中ski为表达式语义mk的一个原子语义项;tj为该时间表达式内部的单词;...
【专利技术属性】
技术研发人员:高冠吉,丁文韬,瞿裕忠,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。