The embodiment of the invention and device a extraction method of time words in public, the method comprises the following steps: acquiring text extracted time words; all of the candidate words extracting the text in each of the candidate words with at least a semantic representation of time for each candidate word; determine the semantic region corresponding to the in the text, the semantic region including the candidate word and the candidate words before and after a predetermined number of characters; if the semantic region does not contain the first string corresponding to the candidate words, determine the candidate word for word time, and outputs the time words. The technical scheme can simplify the extraction rules, expand the number of candidate words extracted, avoid because the extraction rules are too complicated and cause a lot of time words are omitted; on the other hand, the candidate word disambiguation, can accurately extract text in time words, especially suitable for Chinese the text words diversified forms.
【技术实现步骤摘要】
时间词的抽取方法及装置
本专利技术涉及信息抽取与处理
,具体涉及一种时间词的抽取方法。此外,本专利技术还涉及一种时间词抽取装置。
技术介绍
信息抽取是指从自然语言的文本中抽取出信息点的技术,旨在为人们提供更好的信息获取工具,以应对信息爆炸带来的严重挑战。时间信息是自然语言的重要组成部分,是完整理解自然语言语义时不可或缺的要素。因此,信息提取的其中一项重要工作就是从文本中抽取出用于表征时间信息的时间词。常规的从文本中抽取时间词的方法主要是构建抽取规则,将抽取规则与文本进行匹配,从而提取出时间词。例如,提取出“1999年12月12日”、“8点半”、“星期一”这样的时间词。但是,经过分析认为,对于中文文本,尤其是古代的中文文本而言,时间词除了年月日、时分秒这样的常规的表现形式之外,还存在很多其他形式的表现形式。对于这样的文本,如果要抽取准确的时间词,就需要构建复杂的抽取规则,而复杂的抽取规则很可能会导致大量的时间词被遗漏。
技术实现思路
为解决上述技术问题,本申请提出一种时间词的抽取方法,以解决时间词抽取规则复杂且容易造成大量遗漏的问题。第一方面,提供一种时间词的抽取方法,包括以下步骤:获取待抽取时间词的文本;抽取所述文本中全部的候选词,每一个所述候选词至少具有一种语义用于表征时间;确定各个候选词在所述文本中分别对应的语义区域,所述语义区域包括候选词及候选词前后的预定数量个字符;如果所述语义区域中不包含与候选词相对应的第一预设字符串,则确定所述候选词为时间词,并输出所述时间词。结合第一方面,在第一方面第一种可能的实现方式中,抽取所述文本中全部的候选词的步骤,包 ...
【技术保护点】
一种时间词的抽取方法,其特征在于,包括以下步骤:获取待抽取时间词的文本;抽取所述文本中全部的候选词,每一个所述候选词至少具有一种语义用于表征时间;确定各个候选词在所述文本中分别对应的语义区域,所述语义区域包括候选词及候选词前后的预定数量个字符;如果所述语义区域中不包含与候选词相对应的第一预设字符串,则确定所述候选词为时间词,并输出所述时间词。
【技术特征摘要】
1.一种时间词的抽取方法,其特征在于,包括以下步骤:获取待抽取时间词的文本;抽取所述文本中全部的候选词,每一个所述候选词至少具有一种语义用于表征时间;确定各个候选词在所述文本中分别对应的语义区域,所述语义区域包括候选词及候选词前后的预定数量个字符;如果所述语义区域中不包含与候选词相对应的第一预设字符串,则确定所述候选词为时间词,并输出所述时间词。2.根据权利要求1所述的时间词的抽取方法,其特征在于,抽取所述文本中全部的候选词的步骤,包括:从所述文本中抽取原始词;确定各个原始词在所述文本中分别对应的匹配区域,所述匹配区域包括原始词及原始词前后的预定数量个字符;生成候选词,所述候选词是匹配区域中包含原始词并且至少具有一种语义用于表征时间的词。3.根据权利要求1所述的时间词的抽取方法,其特征在于,输出所述时间词的步骤,包括:如果时间词包含数字,则判断时间词是否为预设的排除类型;如果不是预设的排除类型,则将时间词转换为预设格式;输出转换格式后的时间词。4.根据权利要求1所述的时间词的抽取方法,其特征在于,输出所述时间词的步骤,包括:确定每个时间词在所述文本中的起止位置;合并起止位置重叠或相邻的时间词;输出合并后的时间词。5.根据权利要求4所述的时间词的抽取方法,其特征在于,合并起止位置重叠或相邻的时间词的步骤,包括:判断当前时间词的起止位置与下一个时间词的起止位置是否重叠或相邻;如果重叠或相邻,则将当前时间词和下一个时间词更新为当前时间词与下一个时间词的并集;确定更新后的时间词在所述文本中的起止位置;如果更新后的时间词的起止位置与其后的下一个时间词的起止位置不重叠且不相邻,则将更新后的时间词作为合并后的时间词。6.一种时间词抽取...
【专利技术属性】
技术研发人员:任宁,张建军,
申请(专利权)人:北京神州泰岳软件股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。