This application provides a method and device for normalizing time information in text, using each time information to be normalized to determine the reference time information corresponding to the time information to be normalized; according to each time information to be normalized and the corresponding reference time information, each time information to be normalized is normalized to obtain the corresponding normalization. Time information. Therefore, this application can automatically discover the corresponding reference time information by using the time information to be normalized, and then normalize the time information to be normalized, so that the accuracy of time information normalization can be improved without the need for users to search and reckon by themselves.
【技术实现步骤摘要】
一种对文本内时间信息归一化的方法及装置
本申请涉及时间归一化处理领域,尤其涉及一种对文本内时间信息归一化的方法及装置。
技术介绍
在自然语言中,时间信息在十分重要的组成部分,时间和事件相联系,准确抽取出时间信息对于文本挖掘来说很有价值。由于时间信息的表述方式和格式多样,很多情况下已知的时间信息在下文中会被省略,例如文本中出现“希望于明日下午三点进行视频会议”,然而,用户从该时间信息中无法确定视频会议召开的具体日期,因此,用户需在整个文本中查找相应的参考时间(如“xx年xx月xx日”),再由参考时间推算出绝对时间,即视频会议召开的具体日期,但是,在文本中有较多参考时间的情况下,用户需判断查找到的参考时间是否为相对时间所对应的参考时间,极易导致相对时间对应的参考时间判定错误或推算错误,而造成绝对时间计算错误。
技术实现思路
本申请提供了一种对文本内时间信息归一化的方法及装置,以解决在文本中有较多参考时间的情况下,用户需判断查找到的参考时间是否为相对时间所对应的参考时间,极易导致相对时间对应的参考时间判定错误或推算错误,而造成绝对时间计算错误的问题。第一方面,本申请提供了一种对文本内时间信息归一化的方法,所述方法包括:获取文本中全部待归一化时间信息;确定每个所述待归一化时间信息的类型;利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息;根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息。第二方面,本申请提供了一种对文本内时间信息归一化的装置,所述装置包括:获取模块,用 ...
【技术保护点】
1.一种对文本内时间信息归一化的方法,其特征在于,所述方法包括:获取文本中全部待归一化时间信息;确定每个所述待归一化时间信息的类型;利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息;根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息。
【技术特征摘要】
1.一种对文本内时间信息归一化的方法,其特征在于,所述方法包括:获取文本中全部待归一化时间信息;确定每个所述待归一化时间信息的类型;利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息;根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息。2.如权利要求1所述的方法,其特征在于,所述待归一化时间信息的类型包括相对时间类和部分绝对时间类,所述确定每个所述待归一化时间信息的类型包括:获取所述相对时间类和部分绝对时间类分别对应的匹配表达式;将所述相对时间类和部分绝对时间类分别对应的匹配表达式逐一与每个所述待归一化时间信息进行匹配;将与所述相对时间类对应的匹配表达式相匹配的待归一化时间信息确定为相对时间信息;将所述部分绝对时间类对应的匹配表达式相匹配的待归一化时间信息确定为部分绝对时间信息。3.如权利要求2所述的方法,其特征在于,当所述待归一化时间信息为相对时间信息时,所述利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息包括:从每个所述待归一化时间信息的位置开始向前搜索,将搜索到距离所述待归一化时间信息最近且为所述第一目标时间级对应的绝对时间词确定为参考时间信息,所述第一目标时间级为所述待归一化时间信息所属的时间级;所述根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息包括:根据所述待归一化时间信息对应的参考时间信息,将所述待归一化时间信息转换为第一绝对时间信息;判断所述待归一化时间信息之后是否连有低于所述第一目标时间级的时间级对应的时间词,如果有,则将所述时间词保留,且与所述第一绝对时间信息组成第二绝对时间信息;如果没有,则将所述第一绝对时间信息确定为第二绝对时间信息;从所述参考时间信息开始向前搜索,将搜索到距离所述参考时间信息最近且为所述第二目标时间级对应的绝对时间词与所述第二绝对时间信息进行拼接,将拼接得到的时间信息确定为第二时间绝对信息,并且重复执行向前搜索和拼接的步骤,直至搜索到首次出现的句号为止,得到相应的归一化时间信息,所述第二目标时间级为第二绝对时间信息中最高时间级的上一时间级。4.如权利要求2所述的方法,其特征在于,当所述待归一化时间信息为相对时间信息时,所述利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息包括:获取用户根据每个所述待归一化时间信息设置的对应的绝对时间信息;将所述绝对时间信息确定为相应的参考时间信息;所述根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息包括:根据所述参考时间信息中第三目标时间级对应的时间词,将对应的待归一化时间信息转换为第三绝对时间信息,所述第三目标时间级为所述待归一化时间信息所属的时间级;判断所述待归一化时间信息之后是否连有低于所述第三目标时间级的时间级对应的时间词,如果有,则将所述时间词保留,且与所述第三绝对时间信息组成第四绝对时间信息;如果没有,则将所述第三绝对时间信息确定为第四绝对时间信息;将所述参考时间信息中第四目标时间级对应的时间词与第四绝对时间信息进行拼接,将拼接后的时间信息确定为第四绝对时间信息,并重复拼接的步骤,直至参考信息中最高时间级对应的时间词完成拼接为止,得到相应的归一化时间信息,所述第四目标时间级为第四绝对时间信息中最高时间级的上一时间级。5.如权利要求2所述的方法,其特征在于,当所述待归一化时间信息为部分绝对时间信息时,所述利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息包括:从每个所述待归一化时间信息的位置开始向前搜索,将搜索到距离所述待归一化时间信息最近且为所述第五目标时间级的上一时间级对应的绝对时间词确定为参考时间信息,所述第五目标时间级为所述待归一化时间信息中最高时间级;所述...
【专利技术属性】
技术研发人员:郝思洋,任宁,晋耀红,李德彦,
申请(专利权)人:安徽省泰岳祥升软件有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。