时间信息提取方法、装置以及计算机存储介质制造方法及图纸

技术编号:21141309 阅读:79 留言:0更新日期:2019-05-18 05:13
一种时间信息提取方法、装置以及计算机存储介质,所述方法包括:获取文本数据;对所述文本数据进行拆分,提取所述文本数据中的实体词语以及有效时间;将所述实体词语与有效时间进行匹配,提取所述文本数据中的时间信息。采用上述方法,可以提升提取的时间信息的准确性。

Time Information Extraction Method, Device and Computer Storage Media

【技术实现步骤摘要】
时间信息提取方法、装置以及计算机存储介质
本专利技术涉及数据处理领域,尤其涉及一种时间信息提取方法、装置以及计算机存储介质。
技术介绍
如今,在企业交流以及人们日常交流中,文本数据中的信息量非常大。在各种场景中,文本数据中的时间信息是不可忽视的客观信息,因此,从大量的文本数据中提取准确的时间信息变得十分重要。现有技术中,从文本数据中提取时间信息的方法通常是:从文本数据中提取数字信息,将数字信息作为时间信息。然而,直接将数字信息作为时间信息,会导致提取的时间信息的准确度较低。
技术实现思路
本专利技术解决的技术问题是提取的时间信息的准确度较低。为解决上述技术问题,本专利技术实施例提供一种时间信息提取方法,包括:获取文本数据;对所述文本数据进行拆分,提取所述文本数据中的实体词语以及有效时间;将所述实体词语与有效时间进行匹配,提取所述文本数据中的时间信息。可选的,所述提取所述文本数据中的实体词语以及有效时间,包括:根据实体词库或词义分析算法提取所述文本数据中的实体词语,提取所述文本数据中的表征数字的信息作为有效时间。可选的,在提取所述文本数据中的实体词语以及有效时间之后,还包括:获取所述实体词语中与时间相关的有效实体词语。可选的,所述获取所述实体词语中与时间相关的有效实体词语,包括:根据实体词库或词义分析算法,在所述文本数据中,若在距离选定实体词语的预设字数范围内存在表征时间的实体词语,确定所述选定实体词语为所述有效实体词语。可选的,所述将实体词语与有效时间进行匹配,提取所述文本数据中的时间信息,包括:根据实体词语的词义,将所述实体词语与所述实体词语对应的有效时间进行匹配,得到时间信息单位;根据多个所述时间信息单位中的所述实体词语在所述文本数据中的位置关联关系以及时间顺序关联关系,将所述时间信息单位组成时间信息。可选的,所述根据多个所述时间信息单位中的所述实体词语在所述文本数据中的位置关联关系以及时间顺序关联关系,包括:通过正则表达式,确定多个所述时间信息单位中的所述实体词语在所述文本数据中的位置关联关系。可选的,在所述提取所述文本数据中的时间信息之后,还包括:按照标准时间格式,将所述时间信息输出。本专利技术还提供一种时间信息提取装置,包括:获取单元,拆分单元与提取单元,其中:所述获取单元,用于获取文本数据;所述拆分单元,用于对所述文本数据进行拆分,提取所述文本数据中的实体词语以及有效时间;所述提取单元,用于将所述实体词语与有效时间进行匹配,提取所述文本数据中的时间信息。本专利技术还提供一种计算机可读存储介质,其上存储有计算机指令,所述计算机可读存储介质为非易失性存储介质或非瞬态存储介质,所述计算机指令运行时执行上述任一种的时间信息提取方法的步骤。本专利技术还提供一种电子设备,包括存储器和处理器,所述存储器上存储有计算机指令,所述计算机指令运行时所述处理器执行上述任一种的时间信息提取方法的步骤。与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:通过获取文本数据,提取所述文本数据中的实体词语以及有效时间,将实体词语与有效时间进行匹配,得到时间信息提取规律,根据所述时间信息提取规律,提取检测数据中的时间信息。将实体词语与有效时间相匹配,可以滤除一些无效的数字信息,同时由于实体词语本身包含词义,可以较为准确地与数字信息进行匹配,进而提升提取的时间信息的准确性。附图说明图1是本专利技术实施例中提供的时间信息提取方法的流程示意图;图2是本专利技术实施例中提供的时间信息提取装置的结构示意图。具体实施方式现有技术中,从文本数据中提取时间信息的方法通常是:从文本数据中提取数字信息,将数字信息作为时间信息。然而,直接将数字信息作为时间信息,会导致提取的时间信息的准确度较低。本专利技术实施例中,通过获取文本数据,提取所述文本数据中的实体词语以及有效时间,将实体词语与有效时间进行匹配,提取所述文本数据中的时间信息。将实体词语与有效时间相匹配,可以滤除一些无效的数字信息,同时由于实体词语本身包含词义,可以较为准确地与数字信息进行匹配,进而提升提取的时间信息的准确性。为使本专利技术的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本专利技术的具体实施例做详细的说明。参阅图1,其为本专利技术实施例中提供的时间信息提取方法的流程示意图,其中具体步骤为:S101,获取文本数据。在具体实施中,文本数据可以包括Word文档、邮件内容等包含文本的数据。在具体实施中,可以获取与某一用户相关的文本数据。由于单独个体的文字书写习惯较为固定,因此在提取的文本数据均与某一用户相关时,提取的时间信息的准确度较高。在具体实施中,根据应用时间信息提取的场景不同,可以提取不同种类的文本数据。例如,在表格填写场景下提取时间信息,可以获取表格相关的文本数据;又如,在书写邮件场景下提取时间信息,可以获取邮件相关的文本数据。由于不同种类的文本数据中的文字书写顺序相类似,因此,根据应用时间信息提取的场景不同,提取不同种类的文本数据,可以提升提取的时间信息的准确度。S102,对所述文本数据进行拆分,提取所述文本数据中的实体词语以及有效时间。在具体实施中,可以通过词义分析算法或者词库对文本数据进行拆分,将表达不同内涵、认识、评价或者事件的段落或者语句进行分割,在分割后的部分内进行实体词语以及有效时间的提取,便于后续的时间信息的提取。在具体实施中,所述实体词语可以为以文字形式表征时间的词语,例如今年、明年、年份、上个月、月初、明天、今天、下午等词语。在具体实施中,根据在不同场景下应用时间信息提取方法,或者根据用户的实际设定,提取的实体词语的对象可以不同。例如,根据用户设定,不提取实体词语“年”,仅提取实体词语“月”、“日”、“时”等。在具体实施中,所述有效时间可以为以数字作为表现形式的词语,例如,2018、2019、12、19等词语。在具体实施中,根据在不同场景下应用时间信息提取方法,或者根据用户的实际设定,提取的有效时间的对象可以不仅仅包括以数字字符为表现形式的语句。例如,词语“下班”,根据词义分析算法或者词库,“下班”可以指向一个具体的数字“18”,因此,“下班”也可以作为有效时间进行提取,可以与实体词语“时”,组成时间信息“18时”。步骤S103,将所述实体词语与有效时间进行匹配,提取所述文本数据中的时间信息。在具体实施中,可以根据实体词语的语义将实体词语与有效时间进行匹配。例如,实体词语“年”,可以将其与包含连续的四个数字字符的有效时间“2018”进行匹配,得到时间信息“2018年”。在具体实施中,可以根据词库将将实体词语与有效时间进行匹配。例如,词库中包含“12月”,在文本数据中存在实体词语“月”,在所述实体词语“月”的附近存在有效时间“12”,可以将实体词语“月”与有效时间“12”进行匹配,得到时间信息“12月”。在具体实施中,根据时间的表达形式,可以提取最大程度符合时间表达形式的时间信息。例如,在得到“2018年”与“12月”后,在时间的表达形式中,年与月是连续地进行表达的,因此可以得到时间信息“2018年12月”。以此类推,可以提取“2018年12月19日星期三上午8时30分”这样的时间信息。在具体实施中,在将实体词语与有效时间进行匹配的过程中,可以滤除一部分并不用于表征时间的实体词语本文档来自技高网...

【技术保护点】
1.一种时间信息提取方法,其特征在于,包括:获取文本数据;对所述文本数据进行拆分,提取所述文本数据中的实体词语以及有效时间;将所述实体词语与有效时间进行匹配,提取所述文本数据中的时间信息。

【技术特征摘要】
1.一种时间信息提取方法,其特征在于,包括:获取文本数据;对所述文本数据进行拆分,提取所述文本数据中的实体词语以及有效时间;将所述实体词语与有效时间进行匹配,提取所述文本数据中的时间信息。2.根据权利要求1所述的时间信息提取方法,其特征在于,所述提取所述文本数据中的实体词语以及有效时间,包括:根据实体词库或词义分析算法提取所述文本数据中的实体词语,提取所述文本数据中的表征数字的信息作为有效时间。3.根据权利要求2所述的时间信息提取方法,其特征在于,在提取所述文本数据中的实体词语以及有效时间之后,还包括:获取所述实体词语中与时间相关的有效实体词语。4.根据权利要求3所述的时间信息提取方法,其特征在于,所述获取所述实体词语中与时间相关的有效实体词语,包括:根据实体词库或词义分析算法,在所述文本数据中,若在距离选定实体词语的预设字数范围内存在表征时间的实体词语,确定所述选定实体词语为所述有效实体词语。5.根据权利要求1所述的时间信息提取方法,其特征在于,所述将所述实体词语与有效时间进行匹配,提取所述文本数据中的时间信息,包括:根据实体词语的词义,将所述实体词语与所述实体词语对应的有效时间进行匹配,得到时间信息单位;根据多个所述时间信息单位中的所述实体词语在所述文本数据中的位...

【专利技术属性】
技术研发人员:王浩周星周永吉陈凤杰
申请(专利权)人:贵州小爱机器人科技有限公司
类型:发明
国别省市:贵州,52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1