时间词的抽取方法及装置制造方法及图纸

技术编号:17667599 阅读:41 留言:0更新日期:2018-04-11 05:54
本发明专利技术实施例公开一种时间词的抽取方法及装置,该方法包括以下步骤:获取待抽取时间词的文本;抽取所述文本中全部的候选词,每一个所述候选词至少具有一种语义用于表征时间;确定各个候选词在所述文本中分别对应的语义区域,所述语义区域包括候选词及候选词前后的预定数量个字符;如果所述语义区域中不包含与候选词相对应的第一预设字符串,则确定所述候选词为时间词,并输出所述时间词。上述技术方案一方面可以简化抽取规则,扩大抽取出的候选词的数量,避免因为抽取规则过于复杂而导致大量时间词被遗漏的情况;另一方面,通过对候选词进行消歧,能够较为准确地抽取出文本中的时间词,尤其适用于时间词表现形式多样化的中文文本。

Method and device for extracting time words

The embodiment of the invention and device a extraction method of time words in public, the method comprises the following steps: acquiring text extracted time words; all of the candidate words extracting the text in each of the candidate words with at least a semantic representation of time for each candidate word; determine the semantic region corresponding to the in the text, the semantic region including the candidate word and the candidate words before and after a predetermined number of characters; if the semantic region does not contain the first string corresponding to the candidate words, determine the candidate word for word time, and outputs the time words. The technical scheme can simplify the extraction rules, expand the number of candidate words extracted, avoid because the extraction rules are too complicated and cause a lot of time words are omitted; on the other hand, the candidate word disambiguation, can accurately extract text in time words, especially suitable for Chinese the text words diversified forms.

【技术实现步骤摘要】
时间词的抽取方法及装置
本专利技术涉及信息抽取与处理
,具体涉及一种时间词的抽取方法。此外,本专利技术还涉及一种时间词抽取装置。
技术介绍
信息抽取是指从自然语言的文本中抽取出信息点的技术,旨在为人们提供更好的信息获取工具,以应对信息爆炸带来的严重挑战。时间信息是自然语言的重要组成部分,是完整理解自然语言语义时不可或缺的要素。因此,信息提取的其中一项重要工作就是从文本中抽取出用于表征时间信息的时间词。常规的从文本中抽取时间词的方法主要是构建抽取规则,将抽取规则与文本进行匹配,从而提取出时间词。例如,提取出“1999年12月12日”、“8点半”、“星期一”这样的时间词。但是,经过分析认为,对于中文文本,尤其是古代的中文文本而言,时间词除了年月日、时分秒这样的常规的表现形式之外,还存在很多其他形式的表现形式。对于这样的文本,如果要抽取准确的时间词,就需要构建复杂的抽取规则,而复杂的抽取规则很可能会导致大量的时间词被遗漏。
技术实现思路
为解决上述技术问题,本申请提出一种时间词的抽取方法,以解决时间词抽取规则复杂且容易造成大量遗漏的问题。第一方面,提供一种时间词的抽取方法,包括以下步骤:获取待抽取时间词的文本;抽取所述文本中全部的候选词,每一个所述候选词至少具有一种语义用于表征时间;确定各个候选词在所述文本中分别对应的语义区域,所述语义区域包括候选词及候选词前后的预定数量个字符;如果所述语义区域中不包含与候选词相对应的第一预设字符串,则确定所述候选词为时间词,并输出所述时间词。结合第一方面,在第一方面第一种可能的实现方式中,抽取所述文本中全部的候选词的步骤,包括:从所述文本中抽取原始词;确定各个原始词在所述文本中分别对应的匹配区域,所述匹配区域包括原始词及原始词前后的预定数量个字符;生成候选词,所述候选词是匹配区域中包含原始词并且至少具有一种语义用于表征时间的词。结合第一方面的第一种实现方式,在第一方面第二种可能的实现方式中,输出所述时间词的步骤,包括:如果时间词包含数字,则判断时间词是否为预设的排除类型;如果不是预设的排除类型,则将时间词转换为预设格式;输出转换格式后的时间词。结合第一方面及上述可能的实现方式,在第一方面第三种可能的实现方式中,输出所述时间词的步骤,包括:确定每个时间词在所述文本中的起止位置;合并起止位置重叠或相邻的时间词;输出合并后的时间词。结合第一方面及上述可能的实现方式,在第一方面第四种可能的实现方式中,合并起止位置重叠或相邻的时间词的步骤,包括:判断当前时间词的起止位置与下一个时间词的起止位置是否重叠或相邻;如果重叠或相邻,则将当前时间词和下一个时间词更新为当前时间词与下一个时间词的并集;确定更新后的时间词在所述文本中的起止位置;如果更新后的时间词的起止位置与其后的下一个时间词的起止位置不重叠且不相邻,则将更新后的时间词作为合并后的时间词。第二方面,提供一种时间词抽取装置,包括:获取单元,用于获取待抽取时间词的文本;处理单元,用于抽取所述文本中全部的候选词,确定各个候选词在所述文本中分别对应的语义区域,以及在所述语义区域中不包含与候选词相对应的第一预设字符串的情况下确定所述候选词为时间词;其中,每一个所述候选词至少具有一种语义用于表征时间,所述语义区域包括候选词及候选词前后的预定数量个字符;输出单元,用于输出所述时间词。结合第二方面,在第二方面第一种可能的实现方式中,所述处理单元还用于从所述文本中抽取原始词,确定各个原始词在所述文本中分别对应的匹配区域,以及,生成候选词;其中,所述匹配区域包括原始词及原始词前后的预定数量个字符,所述候选词是匹配区域中包含原始词并且至少具有一种语义用于表征时间的词。结合第二方面的第一种实现方式,在第二方面第二种可能的实现方式中,所述处理单元还用于在时间词包含数字的情况下判断时间词是否为预设的排除类型,如果不是预设的排除类型,则将时间词转换为预设格式;所述输出单元还用于输出转换格式后的时间词。结合第二方面及上述可能的实现方式,在第二方面第三种可能的实现方式中,所述处理单元还用于确定每个时间词在所述文本中的起止位置,以及,合并起止位置重叠或相邻的时间词;所述输出单元还用于输出合并后的时间词。结合第二方面及上述可能的实现方式,在第二方面第四种可能的实现方式中,所述处理单元还用于判断当前时间词的起止位置与下一个时间词的起止位置是否重叠或相邻,在重叠或相邻的情况下将当前时间词和下一个时间词更新为当前时间词与下一个时间词的并集,确定更新后的时间词在所述文本中的起止位置,以及,在更新后的时间词的起止位置与其后的下一个时间词的起止位置不重叠且不相邻的情况下,将更新后的时间词作为合并后的时间词。上述技术方案中的抽取时间词的方法及装置,首先获取待抽取时间词的文本,从文本中抽取全部的候选词。其中,每一个候选词至少具有一种语义用于表征时间,也就是说候选词在文本中有可能是表征时间的时间词,也有可能不是表征时间的时间词。然后通过确定各个候选词在文本中分别对应的语义区域,再判断语义区域中是否包含与候选词相对应的第一预设字符串,从而确定在候选词在文本中是不是时间词,消除了歧义。最后输出时间词,完成从文本中抽取时间词的过程。本方法不直接从文本中一次性抽取准确的时间词,而是先抽取候选词,再确定候选词的语义区域,然后利用语义区域和第一预设字符串来判断候选词在该文本中是否为时间词,从而将准确的时间词从文本中抽取出来。如此,一方面,可以简化抽取规则,扩大抽取出的候选词的数量,避免因为抽取规则过于复杂而导致大量时间词被遗漏的情况;另一方面,通过对候选词进行消歧,能够较为准确地抽取出文本中的时间词,尤其适用于时间词表现形式多样化的中文文本。将该时间词的抽取方法应用到中文文本的时间词抽取中,可以使得抽取到的时间词覆盖更加全面、形式更加多样化,同时遗漏数量也大大降低。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请时间词的抽取方法的具体实施方式的流程图;图2为本申请时间词的抽取方法的具体实施方式中,S200的步骤的一个实施例的流程图;图3为本申请时间词的抽取方法的具体实施方式中,输出时间词的步骤的第一个实施例的流程图;图4为本申请时间词的抽取方法的具体实施方式中,输出时间词的步骤的第二个实施例的流程图;图5为本申请时间词的抽取方法的具体实施方式中,输出时间词的步骤的第二个实施例中S422的步骤的流程图;图6为本申请的时间词抽取装置的具体实施方式的结构示意图。具体实施方式下面对本申请的实施例作详细说明。请参考图1,在本申请的第一个具体实施方式中,提供一种时间词的抽取方法,包括S100至S400的步骤。S100:获取待抽取时间词的文本。在S100的步骤中,待抽取时间词的文本可以是白话文的中文文本,也可以是文言文的中文文本等多种形式,本申请对此不做限制。S200:抽取所述文本中全部的候选词,每一个所述候选词至少具有一种语义用于表征时间。在S200的步骤中,每一个候选词至少具有一种语义用于表征时间,也就是说,候选词除了至少具有一种用于表征时间的语本文档来自技高网...
时间词的抽取方法及装置

【技术保护点】
一种时间词的抽取方法,其特征在于,包括以下步骤:获取待抽取时间词的文本;抽取所述文本中全部的候选词,每一个所述候选词至少具有一种语义用于表征时间;确定各个候选词在所述文本中分别对应的语义区域,所述语义区域包括候选词及候选词前后的预定数量个字符;如果所述语义区域中不包含与候选词相对应的第一预设字符串,则确定所述候选词为时间词,并输出所述时间词。

【技术特征摘要】
1.一种时间词的抽取方法,其特征在于,包括以下步骤:获取待抽取时间词的文本;抽取所述文本中全部的候选词,每一个所述候选词至少具有一种语义用于表征时间;确定各个候选词在所述文本中分别对应的语义区域,所述语义区域包括候选词及候选词前后的预定数量个字符;如果所述语义区域中不包含与候选词相对应的第一预设字符串,则确定所述候选词为时间词,并输出所述时间词。2.根据权利要求1所述的时间词的抽取方法,其特征在于,抽取所述文本中全部的候选词的步骤,包括:从所述文本中抽取原始词;确定各个原始词在所述文本中分别对应的匹配区域,所述匹配区域包括原始词及原始词前后的预定数量个字符;生成候选词,所述候选词是匹配区域中包含原始词并且至少具有一种语义用于表征时间的词。3.根据权利要求1所述的时间词的抽取方法,其特征在于,输出所述时间词的步骤,包括:如果时间词包含数字,则判断时间词是否为预设的排除类型;如果不是预设的排除类型,则将时间词转换为预设格式;输出转换格式后的时间词。4.根据权利要求1所述的时间词的抽取方法,其特征在于,输出所述时间词的步骤,包括:确定每个时间词在所述文本中的起止位置;合并起止位置重叠或相邻的时间词;输出合并后的时间词。5.根据权利要求4所述的时间词的抽取方法,其特征在于,合并起止位置重叠或相邻的时间词的步骤,包括:判断当前时间词的起止位置与下一个时间词的起止位置是否重叠或相邻;如果重叠或相邻,则将当前时间词和下一个时间词更新为当前时间词与下一个时间词的并集;确定更新后的时间词在所述文本中的起止位置;如果更新后的时间词的起止位置与其后的下一个时间词的起止位置不重叠且不相邻,则将更新后的时间词作为合并后的时间词。6.一种时间词抽取...

【专利技术属性】
技术研发人员:任宁张建军
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1