【技术实现步骤摘要】
语料的处理方法及装置、电子设备、存储介质
[0001]本专利技术涉及大数据领域,具体而言,涉及一种语料的处理方法及装置、电子设备、存储介质。
技术介绍
[0002]目前,随着大数据技术的发展以及数据的快速增长,产生了大规模的网络文本数据,文本数据其数据量大、更新速度快,针对数据长度为5
‑
100字符的大规模网络文本,其中包含了大量的时间、地点、人物等重要信息。在网络文本的实体识别应用中,传统的实体识别技术仅能识别文本中的实体,比如文本中的人名、地名、机构名等,无法识别出文本中的时间以及时间与各实体之间的对应关系,无法应用于需要捕捉人员于何时何地行动或何时去往何地等领域。
[0003]针对上述相关技术中存在的技术问题,目前没有提出有效的解决方案。
技术实现思路
[0004]鉴于上述问题,本专利技术提出了一种语料的处理方法及装置、电子设备、存储介质,以至少解决了现有的实体识别方案无法识别出各个实体之间与时间的对应关系的技术问题。
[0005]第一方面,本专利技术提供了一种语料的处 ...
【技术保护点】
【技术特征摘要】
1.一种语料的处理方法,其特征在于,包括:将目标语料拆分成多个子语料;选定所述多个子语料中任一与时间有关的子语料为目标子语料,提取所述目标子语料中的时间信息;关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料;其中,所述关联语料用于表征所述目标子语料中的时间信息和多个实体关键词之间的对应关系。2.根据权利要求1所述的方法,其特征在于,在将目标语料拆分成多个子语料之后,所述方法还包括:根据时间关键词库从所述多个子语料中筛选出与时间有关的第一子语料,其中,所述时间关键词库包括用于表达时间的时间关键词以及时间正则表达式;检测与所述第一子语料相邻的第二子语料中是否含有与时间有关的语料;若检测到所述第二子语料中没有与时间有关的语料,则将所述第一子语料和所述第二子语料进行组合,得到第三子语料。3.根据权利要求2所述的方法,其特征在于,在得到所述第三子语料之后,所述方法还包括:更新目标列表,以使所述第三子语料的存储位置替换所述第一子语料和第二子语料的存储位置;其中,所述目标列表为在将所述目标语料拆分成所述多个子语料之后,通过基于所述多个子语料的上下文顺序存储所述多个子语料生成的。4.根据权利要求1所述的方法,其特征在于,所述提取所述目标子语料中的时间信息包括:对所述目标子语料进行清洗,得到第四子语料;基于时间正则库从所述第四子语料中提取时间关键词;对所述时间关键词的时间格式进行标准化,得到所述目标子语料中的时间信息。5.根据权利要求4所述的方法,其特征在于,所述目标语料包括文本...
【专利技术属性】
技术研发人员:陈思思,
申请(专利权)人:大箴杭州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。