一种对文本内时间信息归一化的方法及装置制造方法及图纸

技术编号:21361308 阅读:23 留言:0更新日期:2019-06-15 09:19
本申请提供了一种对文本内时间信息归一化的方法及装置,利用每个所述待归一化时间信息,确定所述待归一化时间信息对应的参考时间信息;根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息。因此,本申请可利用待归一化时间信息自动发现对应的参考时间信息,然后将待归一化时间信息进行对归一化处理,无需用户自行查找推算,提高时间信息归一化的准确性。

A Method and Device for Normalizing Time Information in Text

This application provides a method and device for normalizing time information in text, using each time information to be normalized to determine the reference time information corresponding to the time information to be normalized; according to each time information to be normalized and the corresponding reference time information, each time information to be normalized is normalized to obtain the corresponding normalization. Time information. Therefore, this application can automatically discover the corresponding reference time information by using the time information to be normalized, and then normalize the time information to be normalized, so that the accuracy of time information normalization can be improved without the need for users to search and reckon by themselves.

【技术实现步骤摘要】
一种对文本内时间信息归一化的方法及装置
本申请涉及时间归一化处理领域,尤其涉及一种对文本内时间信息归一化的方法及装置。
技术介绍
在自然语言中,时间信息在十分重要的组成部分,时间和事件相联系,准确抽取出时间信息对于文本挖掘来说很有价值。由于时间信息的表述方式和格式多样,很多情况下已知的时间信息在下文中会被省略,例如文本中出现“希望于明日下午三点进行视频会议”,然而,用户从该时间信息中无法确定视频会议召开的具体日期,因此,用户需在整个文本中查找相应的参考时间(如“xx年xx月xx日”),再由参考时间推算出绝对时间,即视频会议召开的具体日期,但是,在文本中有较多参考时间的情况下,用户需判断查找到的参考时间是否为相对时间所对应的参考时间,极易导致相对时间对应的参考时间判定错误或推算错误,而造成绝对时间计算错误。
技术实现思路
本申请提供了一种对文本内时间信息归一化的方法及装置,以解决在文本中有较多参考时间的情况下,用户需判断查找到的参考时间是否为相对时间所对应的参考时间,极易导致相对时间对应的参考时间判定错误或推算错误,而造成绝对时间计算错误的问题。第一方面,本申请提供了一种对文本内时间信息归一化的方法,所述方法包括:获取文本中全部待归一化时间信息;确定每个所述待归一化时间信息的类型;利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息;根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息。第二方面,本申请提供了一种对文本内时间信息归一化的装置,所述装置包括:获取模块,用于获取文本中全部待归一化时间信息;类型确定模块,用于每个所述待归一化时间信息的类型;参考时间确定模块,用于利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息;归一化处理模块,用于根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息。由以上技术方案可知,本申请提供了一种对文本内时间信息归一化的方法及装置,利用每个所述待归一化时间信息,确定所述待归一化时间信息对应的参考时间信息;根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息。因此,本申请可利用待归一化时间信息自动发现对应的参考时间信息,然后将待归一化时间信息进行对归一化处理,无需用户自行查找推算,提高时间信息归一化的准确性。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请一实施例提供的一种对文本内时间信息归一化的方法的流程图;图2为图1中步骤12的流程图;图3为本申请另一实施例提供的一种对文本内时间信息归一化的方法的流程图;图4为本申请另一实施例提供的一种对文本内时间信息归一化的方法的流程图;图5为本申请另一实施例提供的一种对文本内时间信息归一化的方法的流程图;图6为本申请另一实施例提供的一种对文本内时间信息归一化的方法的流程图;图7为本申请提供的一种对文本内时间信息归一化的装置的结构示意图;图8为类型确定模块的结构示意图。具体实施方式第一方面,参见图1,本申请的一实施例提供了一种对文本内时间信息归一化的方法,包括如下步骤:步骤11:获取文本中全部待归一化时间信息。文本可以是doc格式文档、txt格式的文本文档或html文档等,抽取出文本中的时间信息,接着会针对文本中的时间信息进行辨识,筛选出待归一化时间信息,即相对时间信息或部分绝对时间信息。相对时间信息可为明天、今天、第二年等相对时间的文字描述,部分绝对时间信息可为15日8:00等不完整的绝对时间的文字描述。获取文本中的待归一化时间信息具体由以下步骤实现:(1)获取待抽取时间信息的文本。(2)抽取所述文本中全部的候选时间信息,每一个所述候选时间信息至少具有一种语义用于表征时间。每一个候选时间信息至少具有一种语义用于表征时间,也就是说,候选时间信息除了至少具有一种用于表征时间的语义之外,可能还具有表示其他含义的语义。例如,“三号”既可以表示某个日期,也可以表示一系列人事物中的某一个人事物的编号等。抽取所述文本中全部的候选时间信息,可以采用构建正则表达式直接匹配的方式来抽取,也可以采用其他的方式。在一种抽取候选时间信息的实现方式中,采用正则表达式直接与待抽取时间信息的文本进行匹配来抽取候选时间信息。在构建正则表达式时,正则表达式的特定字符串可以包括多种表现形式的时间信息。例如,“丁丑”、“午时”、“二更”等用天干地支的方式来表征时间信息的时间信息;“大寒”、“春分”、“夏至”等用节气来表征时间信息的时间信息;“国庆节”、“劳动节”等用节日来表征时间信息的时间信息;“唐朝”、“商周”、“太古时代”、“千禧年”等表示时代或朝代的时间信息;“每年”、“逐日”等表征固定间隔时间段的时间信息;以及“须臾”、“迩年”、“几十年”等表示模糊的时间段的时间信息等。所抽取出的候选时间信息至少具有一种语义用于表征时间,也就是说,候选时间信息在文本中有可能表征时间,也有可能不表征时间,存在歧义。例如,当文本中“三号”这个候选时间信息的前一个字符为“男”时,“三号”在文本中表示一系列人事物中的某一个人事物的编号,而不表征时间。又例如,当文本中“7.6”这个候选时间信息的后一个字符为“元”、“克”、“米”等时,“7.6”在文中表示物的数量,而不表征时间。为此,在该步骤之后,通过以下的步骤来确定候选时间信息是否为表征时间的时间信息,消除歧义,从而准确地抽取出文本中的时间信息。(3)确定各个候选时间信息在所述文本中分别对应的语义区域,所述语义区域包括候选时间信息及候选时间信息前后的预定数量个字符。举例来说,对于待抽取时间信息的文本“她出生于一八一三年八月十五日,1893年8月15日,在她的八十寿辰时,周氏夫妇设宴为她祝寿。申时,宾客们就陆续到达周氏府邸。”,从文本2中抽取出的候选时间信息有:候选时间信息1“一八一三年八月十五日”、候选时间信息2“1893年8月15日”、候选时间信息3“辰时”、候选时间信息4“申时”。假设,预设在文本中候选时间信息“辰时”的前1个字符以及候选时间信息“辰时”,构成与候选时间信息“辰时”对应的语义区域;预设在文本中候选时间信息“申时”的前1个字符以及候选时间信息“申时”,构成与候选时间信息“申时”对应的语义区域;预设在文本中“X年X月X日”格式的候选时间信息的语义区域为字符“年”之前的4个字符开始到字符“日”,则确定各个候选时间信息在待抽取时间信息的文本中分别对应的语义区域如下所示:她出生于[一八一三年八月十五日],[1893年8月15日],在她的八十[寿辰时],周语义区域1语义区域2语义区域3氏夫妇设宴为她祝寿[。申时],宾客们就陆续到达周氏府邸。语义区域4(4)如果所述语义区域中不包含与候选时间信息相对应的第一预设字符串,则确定所述候选时间信息为时间信息,并输出所述时间信息。此处的第一预设字符串,是指当候选时间信息与其本文档来自技高网...

【技术保护点】
1.一种对文本内时间信息归一化的方法,其特征在于,所述方法包括:获取文本中全部待归一化时间信息;确定每个所述待归一化时间信息的类型;利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息;根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息。

【技术特征摘要】
1.一种对文本内时间信息归一化的方法,其特征在于,所述方法包括:获取文本中全部待归一化时间信息;确定每个所述待归一化时间信息的类型;利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息;根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息。2.如权利要求1所述的方法,其特征在于,所述待归一化时间信息的类型包括相对时间类和部分绝对时间类,所述确定每个所述待归一化时间信息的类型包括:获取所述相对时间类和部分绝对时间类分别对应的匹配表达式;将所述相对时间类和部分绝对时间类分别对应的匹配表达式逐一与每个所述待归一化时间信息进行匹配;将与所述相对时间类对应的匹配表达式相匹配的待归一化时间信息确定为相对时间信息;将所述部分绝对时间类对应的匹配表达式相匹配的待归一化时间信息确定为部分绝对时间信息。3.如权利要求2所述的方法,其特征在于,当所述待归一化时间信息为相对时间信息时,所述利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息包括:从每个所述待归一化时间信息的位置开始向前搜索,将搜索到距离所述待归一化时间信息最近且为所述第一目标时间级对应的绝对时间词确定为参考时间信息,所述第一目标时间级为所述待归一化时间信息所属的时间级;所述根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息包括:根据所述待归一化时间信息对应的参考时间信息,将所述待归一化时间信息转换为第一绝对时间信息;判断所述待归一化时间信息之后是否连有低于所述第一目标时间级的时间级对应的时间词,如果有,则将所述时间词保留,且与所述第一绝对时间信息组成第二绝对时间信息;如果没有,则将所述第一绝对时间信息确定为第二绝对时间信息;从所述参考时间信息开始向前搜索,将搜索到距离所述参考时间信息最近且为所述第二目标时间级对应的绝对时间词与所述第二绝对时间信息进行拼接,将拼接得到的时间信息确定为第二时间绝对信息,并且重复执行向前搜索和拼接的步骤,直至搜索到首次出现的句号为止,得到相应的归一化时间信息,所述第二目标时间级为第二绝对时间信息中最高时间级的上一时间级。4.如权利要求2所述的方法,其特征在于,当所述待归一化时间信息为相对时间信息时,所述利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息包括:获取用户根据每个所述待归一化时间信息设置的对应的绝对时间信息;将所述绝对时间信息确定为相应的参考时间信息;所述根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息包括:根据所述参考时间信息中第三目标时间级对应的时间词,将对应的待归一化时间信息转换为第三绝对时间信息,所述第三目标时间级为所述待归一化时间信息所属的时间级;判断所述待归一化时间信息之后是否连有低于所述第三目标时间级的时间级对应的时间词,如果有,则将所述时间词保留,且与所述第三绝对时间信息组成第四绝对时间信息;如果没有,则将所述第三绝对时间信息确定为第四绝对时间信息;将所述参考时间信息中第四目标时间级对应的时间词与第四绝对时间信息进行拼接,将拼接后的时间信息确定为第四绝对时间信息,并重复拼接的步骤,直至参考信息中最高时间级对应的时间词完成拼接为止,得到相应的归一化时间信息,所述第四目标时间级为第四绝对时间信息中最高时间级的上一时间级。5.如权利要求2所述的方法,其特征在于,当所述待归一化时间信息为部分绝对时间信息时,所述利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息包括:从每个所述待归一化时间信息的位置开始向前搜索,将搜索到距离所述待归一化时间信息最近且为所述第五目标时间级的上一时间级对应的绝对时间词确定为参考时间信息,所述第五目标时间级为所述待归一化时间信息中最高时间级;所述...

【专利技术属性】
技术研发人员:郝思洋任宁晋耀红李德彦
申请(专利权)人:安徽省泰岳祥升软件有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1