【技术实现步骤摘要】
时间识别方法、装置以及相关设备
本专利技术涉及计算机
,尤其涉及一种时间识别方法、装置以及相关设备。
技术介绍
识别文本中与时间相关的信息是自然语言理解过程中的一个重要部分,也是信息抽取、信息检索、问答系统、主题发现和文本摘要等领域的基础支撑。通过识别时间可以更准确地理解文本中的事件,或者理解用户的意图,因此精确识别文本中的时间信息具有重要的意义。现有识别文本中的中文时间信息的具体过程是:定义多个关于绝对时间的模式串,将文本和多个模式串进行正则匹配,如果匹配上了模式串,就可以提取出对应文本中的时间信息。例如,文本为:“2019年1月11号参加会议”,模式串“(\d+)年(\d+)月(\d+)号”就可以成功匹配上述文本,进而可以提取出文本中的时间信息:2019年1月11号。只有当文本中的中文时间信息是绝对时间时,上述方式才有效,若文本中的中文时间信息是相对时间(例如,“下个月5号”、“明年3月”等),现有方法就不能识别出文本中的中文时间信息,进而降低识别文本中的中文时间信息的准确率。专利技 ...
【技术保护点】
1.一种时间识别方法,其特征在于,包括:/n获取目标文本,并获取至少一个时间模式;每个时间模式包括:时间文本模式和时间配置模式;/n选择与所述目标文本中的至少一个目标子文本相匹配的时间文本模式,将匹配的时间文本模式所属的时间模式确定为目标时间模式;/n根据所述目标时间模式中的时间配置模式确定基准时间信息;/n根据所述基准时间信息、所述目标时间模式中的时间配置模式,生成与所述目标文本相匹配的目标时间信息。/n
【技术特征摘要】
1.一种时间识别方法,其特征在于,包括:
获取目标文本,并获取至少一个时间模式;每个时间模式包括:时间文本模式和时间配置模式;
选择与所述目标文本中的至少一个目标子文本相匹配的时间文本模式,将匹配的时间文本模式所属的时间模式确定为目标时间模式;
根据所述目标时间模式中的时间配置模式确定基准时间信息;
根据所述基准时间信息、所述目标时间模式中的时间配置模式,生成与所述目标文本相匹配的目标时间信息。
2.根据权利要求1所述的方法,其特征在于,所述选择与所述目标文本中的至少一个目标子文本相匹配的时间文本模式,包括:
将所述目标文本中属于第一数值类型的第一字符序列,转换为属于第二数值类型的第二字符序列,得到待匹配文本;所述第一字符序列对应的数值信息和所述第二字符序列对应的数值信息相同;
在所述待匹配文本中查找与时间文本模式匹配的至少一个字符序列,将查找到的所述字符序列作为所述目标子文本,将查找到的所述时间文本模式作为与所述目标子文本相匹配的时间文本模式。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标时间模式中的时间配置模式确定基准时间信息,包括:
提取所述目标时间模式中的时间配置模式所包含的多个原始参数;
在多个原始参数中,将属于时间单位属性的原始参数,作为辅助参数;
若所述辅助参数的时间类型包括相对时间类型,则获取系统时间信息,并将所述系统时间信息确定为所述基准时间信息;
若所述辅助参数的时间类型均为精确时间类型,则将为空值的原始时间信息确定为所述基准时间信息。
4.根据权利要求3所述的方法,其特征在于,所述根据所述基准时间信息、所述目标时间模式中的时间配置模式,生成与所述目标文本相匹配的目标时间信息,包括:
根据所述目标文本和所述多个原始参数,生成多个目标参数;
根据所述多个目标参数对所述基准时间信息进行偏移处理,得到目标时间信息。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标文本和所述多个原始参数,生成多个目标参数,包括:
若所述目标时间模式中的时间文本模式不包含数值通配符,则将所述多个原始参数确定为所述多个目标参数;
若所述目标时间模式中的时间文本模式包含所述数值通配符,则在所述目标文本中的目标子文本中获取与所述数值通配符对应的数值信息,并在所述多个原始参数中提取与所述数值通配符对应的原始参数,将提取的所述原始参数替换为在所述目标子文本中获取的所述数值信息,并根据替换后的多个原始参数,生成所述多个目标参数。
6.根据权利要求4所述的方法,其特征在于,所述根据所述多个目标参数对所述基准时间信息进行偏移处理,得到目标时间信息,包括:
在多个目标参数中,将属于时间单位属性的目标参数,作为第一参数;
根据所述第一参数对应的时间单位,分别对多个单元基准时间信息进行偏移处理,得到开始时间信息;所述基准时间信息包括与多个时间单位分别对应的单元基准时间信息;
在所述多个目标参数中,提取属于时间范围属性的目标参数,作为第二参数,根据所述第二参数和所述开始时间信息,生成结束时间信息;
对所述开始时间信息和所述结束时间信息进行组合处理,得到组合时间信息,根据所述组合时间信息生成所述目标时间信息。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一参数对应的时间单位,分别对多个单元基准时间信息进行偏移处理,得到开始时间信息,包括:
从多个单元基准时间信息中提取任一单元基准时间信息,作为目标单元基准时间信息;
从所述第一参数中,提取与所述目标单元基准时间信息具有相同时间单位的第一子参数,作为目标第一子参数;所述第一参数包括多个第一子参数;
根据所述目标第一子参数和所述目标单元基准时间信息,生成单元开始时间信息;
当每个单元基准时间信息均被确定为所述目标单元基准时间信息时,将多个单元开始时间信息按照时间单位顺序组合为所述开始时间信息。
8.根据权利要求6所述的方法,其特征在于,所述对所述开始时间信息和所述结束时间信息进行组合处理,得...
【专利技术属性】
技术研发人员:杨森,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。