【技术实现步骤摘要】
目标语料的确定方法和装置、存储介质及电子装置
本专利技术涉及计算机领域,具体而言,涉及一种目标语料的确定方法和装置、存储介质及电子装置。
技术介绍
在确定语料的过程中,通常是根据关键词确定特定领域中已有的用于读取语料含义的模板所不支持的语料。具体来说,会先使用人为所规定的属于特定领域的关键词,粗略召回所有属于该特定领域的语料,进而再从粗略召回的语料中筛选出真正属于该特定领域的语料,以便确定该特定领域内已有模板无法读取的语料。相关技术中确定真正特定领域的语料时,仅根据关键词粗略召回的预料进行确定,也就是说,确定过程所考虑的因素较为单一,导致所确定出的已有模板无法读取的语料的准确性较低。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供一种目标语料的确定方法和装置、存储介质及电子装置,以至少解决相关技术所确定出的已有模板无法读取的语料的准确性较低的技术问题。根据本专利技术实施例的一个方面,提供了一种目标语料的确定方法,包括:获取在时间周期内接收到的查询语料,其中,查询语料包括查询信息和响应于查询信息而被访问的访问资源定位符URL;在查询语料中 ...
【技术保护点】
1.一种目标语料的确定方法,其特征在于,包括:获取在时间周期内接收到的查询语料,其中,所述查询语料包括查询信息和响应于所述查询信息而被访问的访问资源定位符URL;在所述查询语料中获取第一查询语料,其中,所述第一查询语料包含目标领域对应的目标关键词、且所述第一查询语料中包括的访问URL包含目标URL中的至少一个,所述目标URL为所述目标领域对应的URL;在所述第一查询语料中确定出目标语料,其中,所述目标语料为无法被所述目标领域中已有模板读取的语料。
【技术特征摘要】
1.一种目标语料的确定方法,其特征在于,包括:获取在时间周期内接收到的查询语料,其中,所述查询语料包括查询信息和响应于所述查询信息而被访问的访问资源定位符URL;在所述查询语料中获取第一查询语料,其中,所述第一查询语料包含目标领域对应的目标关键词、且所述第一查询语料中包括的访问URL包含目标URL中的至少一个,所述目标URL为所述目标领域对应的URL;在所述第一查询语料中确定出目标语料,其中,所述目标语料为无法被所述目标领域中已有模板读取的语料。2.根据权利要求1所述的方法,其特征在于,在所述查询语料中获取第一查询语料包括:在所述查询语料中查询第一访问URL,其中,所述第一访问URL包含所述目标URL中的服务器名称或网络之间互连的协议IP地址;在所述查询语料中获取第二查询语料,其中,响应于所述第二查询语料中的查询信息而被访问的访问URL包括所述第一访问URL;在所述第二查询语料中获取第一查询语料,其中,所述第一查询语料包含所述目标领域对应的目标关键词。3.根据权利要求2所述的方法,其特征在于,在所述查询语料中查询第一访问URL之前,还包括:确定接收到的预定语料所属的目标领域,其中,所述预定语料被请求读取的次数大于第一预定阈值、且无法被所述已有模板读取;获取所述目标领域对应的所述目标URL。4.根据权利要求1或2所述的方法,其特征在于,在所述查询语料中获取第一查询语料之前,所述方法还包括:在所述查询语料中获取第二查询语料,其中,响应于所述第二查询语料中的查询信息而被访问的访问URL包括所述目标URL中的服务器名称或IP地址;对所述第二查询语料中包括的查询信息进行分词,得到目标词语;在所述目标词语中获取目标关键词,其中,所述目标关键词在所述第二查询语料中的出现次数大于第二预定阈值。5.根据权利要求4所述的方法,其特征在于,在所述目标词语中获取目标关键词包括:在所述目标词语中获取第一关键词,其中,所述第一关键词在所述第二查询语料中的出现次数大于第二预定阈值;获取所述第一关键词对应的热门词组,其中,所述热门词组包括在搜索引擎中输入所述第一关键词后显示的所述关键词的词组;在所述第一关键词中获取目标关键词,其中,在所述目标关键词对应的热门词组中删除所述目标关键词之后得到的词语属于目标领域,所述目标领域为预定语料所属的目标领域,所述预定语料被请求读取的次数大于第一预定阈值、且无法被所述已有模板读取。6.根据权利要求1所述的方法,其特征在于,在所述第一查询语料中确定出目标语料包括:确定所述第一查询语料中的当前语料是否包括属于目标属性的信息,其中,所述目标领域中配置有所述目标属性,所述目标领域为预定语料所属的目标领域,所述预定语料被请求读取的次数大于第一预定阈值、且无法被所述已有模板读取;在确定出所述当前语料不包括所述属于目标属性的信息的情况下,确定所述当前语料为无法被已有模板读取的目标语料。7.根据权利要求1所述的方法,其特征在于,在所述第一查询语料中确定出目标语料之后,还包括...
【专利技术属性】
技术研发人员:周辉阳,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。