确定词语位置的方法及装置制造方法及图纸

技术编号:14510163 阅读:97 留言:0更新日期:2017-02-01 02:46
本申请公开了一种确定词语位置的方法及装置。该方法包括:确定待处理文本,其中,待处理文本中包括待处理语句,待处理语句包括待处理目标词;获取第一位置信息和第二位置信息,其中,第一位置信息为用于表示待处理语句在待处理文本中的位置信息,第二位置信息为用于表示待处理目标词在待处理文本中的位置信息;将第一位置信息和第二位置信息进行合并,得到位置信息集合;以及根据位置信息集合确定第三位置信息,其中,第三位置信息为用于表示待处理目标词在待处理语句中的位置信息。通过本申请,解决了相关技术中获取目标词在对应语句中的位置信息效率低的技术问题。

【技术实现步骤摘要】

本申请涉及数据处理领域,具体而言,涉及一种确定词语位置的方法及装置
技术介绍
由于搜索引擎具有对关键词进行高亮等需求,因此需要索引返回关键词在字符串中出现的起始位置和结束位置。即关键词在被提取出来时就对应提供了关键词在被提取字符串中的位置信息,这个位置信息表示关键词对于被抽取字符串的位置信息。但是当搜索引擎中被索引的字符串与提取关键词时被抽取的字符串不同时,该位置信息就不能继续作为定位关键词的依据,因此,需要通过被索引的字符串与提取关键词时被提取的字符串之间的关系,对关键词的位置信息进行修正,将原本属于被提取字符串的位置信息转化成被索引字符串的位置信息,才能够进行后续的工作。例如,存在关键词以及关键词在篇章中的位置信息,当对篇章中出现的语句建立索引时,就需要通过语句与篇章的位置关系,将关键词在篇章中的位置转化成关键词在语句中的位置,然后再建立索引。当搜索引擎检索到该关键词时,可以通过索引中的位置信息对应语句中的字符串进行标记,添加高亮等标签。相关技术中需要遍历待匹配的关键词与带匹配的语句,并对关键词和语句的位置信息进行比对,来确定关键词是否属于语句,以及更新关键词对于语句的位置信息。原来实现方式的遍历过程是完全遍历,在匹配每一个词的时候都需要遍历全部语句列表,但是其中只有一次匹配是真正正确的匹配,其他时候都是未正确匹配状态。假设待匹配的关键词数量是m,待匹配的语句数量是n,整个过程的时间复杂度为(m*n)。因此,导致词语与语句之间位置信息匹配效率比较低。针对相关技术中获取目标词在对应语句中的位置信息效率低的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种确定词语位置的方法及装置,以至少解决相关技术中获取目标词在对应语句中的位置信息效率低的技术问题。根据本申请实施例的一个方面,提供了一种确定词语位置的方法,该方法包括:确定待处理文本,其中,待处理文本中包括待处理语句,待处理语句包括待处理目标词;获取第一位置信息和第二位置信息,其中,第一位置信息为用于表示待处理语句在待处理文本中的位置信息,第二位置信息为用于表示待处理目标词在待处理文本中的位置信息;将第一位置信息和第二位置信息进行合并,得到位置信息集合;以及根据位置信息集合确定第三位置信息,其中,第三位置信息为用于表示待处理目标词在待处理语句中的位置信息。进一步地,在得到位置信息集合之后,在根据位置信息集合确定第三位置信息之前,该方法还包括:对第一位置信息和第二位置信息进行排序处理,得到排序后的位置信息集合,根据位置信息集合确定第三位置信息还包括:通过遍历排序后的位置信息集合确定第三位置信息。进一步地,通过遍历排序后的位置信息集合确定第三位置信息包括:确定第一排序位置信息和第二排序位置信息,其中,第一排序位置信息为排序后的位置信息集合中当前待处理语句的位置信息,第二排序位置信息为第一排序位置信息的下一位置信息;当第二排序位置信息对应的是待处理目标词时,确定待处理目标词存在于当前待处理语句中;以及获取待处理目标词在当前待处理语句中的位置信息,作为第三位置信息。进一步地,当第二排序位置信息对应的是待处理语句时,该方法还包括:确定第二排序位置信息对应的待处理词句为当前待处理语句;以及根据当前待处理语句重新确定第一排序位置信息,直到遍历完成排序后的位置信息集合。进一步地,对第一位置信息和第二位置信息进行排序处理,得到排序后的位置信息集合包括:确定位置信息集合中的每个位置信息的权重值;以及根据权重值,对位置信息集合中的位置信息进行排序,得到排序后的位置信息集合。进一步地,获取第一位置信息和第二位置信息包括:获取待处理语句在待处理文本中的开始位置和待处理目标词在待处理文本中的开始位置;以及将待处理语句在待处理文本中的开始位置作为第一位置信息,待处理目标词在待处理文本中的开始位置作为第二位置信息。根据本申请实施例的另一方面,还提供了一种确定词语位置的装置,该装置包括:第一确定单元,用于确定待处理文本,其中,待处理文本中包括待处理语句,待处理语句包括待处理目标词;获取单元,用于获取第一位置信息和第二位置信息,其中,第一位置信息为用于表示待处理语句在待处理文本中的位置信息,第二位置信息为用于表示待处理目标词在待处理文本中的位置信息;合并单元,用于将第一位置信息和第二位置信息进行合并,得到位置信息集合;以及第二确定单元,用于根据位置信息集合确定第三位置信息,其中,第三位置信息为用于表示待处理目标词在待处理语句中的位置信息。进一步地,该装置还包括:排序单元,用于对第一位置信息和第二位置信息进行排序处理,得到排序后的位置信息集合,第二确定单元还包括:遍历模块,用于通过遍历排序后的位置信息集合确定第三位置信息。进一步地,遍历模块包括:第一确定子模块,用于确定第一排序位置信息和第二排序位置信息,其中,第一排序位置信息为排序后的位置信息集合中当前待处理语句的位置信息,第二排序位置信息为第一排序位置信息的下一位置信息;判断子模块,用于判断第二排序位置信息对应的对象是待处理语句还是待处理目标词;第二确定子模块,用于当第二排序位置信息对应的是待处理目标词时,确定待处理目标词存在于当前待处理语句中;以及获取子模块,用于获取待处理目标词在当前待处理语句中的位置信息,作为第三位置信息。进一步地,排序单元包括:确定模块,用于确定位置信息集合中的每个位置信息的权重值;以及排序模块,用于根据权重值,对位置信息集合中的位置信息进行排序,得到排序后的位置信息集合。在本申请中,由于通过确定待处理文本;获取第一位置信息和第二位置信息;将第一位置信息和第二位置信息进行合并,得到位置信息集合;以及根据位置信息集合确定第三位置信息,解决了相关技术中获取目标词在对应语句中的位置信息效率低的技术问题,进而达到了提升获取目标词在对应语句中的位置信息效率的技术效果。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的一种确定词语位置的方法的流程图;以及图2是根据本申请实施例的一种确定词语位置的装置的示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本申请实本文档来自技高网
...

【技术保护点】
一种确定词语位置的方法,其特征在于,包括:确定待处理文本,其中,所述待处理文本中包括待处理语句,所述待处理语句包括待处理目标词;获取第一位置信息和第二位置信息,其中,所述第一位置信息为用于表示所述待处理语句在所述待处理文本中的位置信息,所述第二位置信息为用于表示所述待处理目标词在所述待处理文本中的位置信息;将所述第一位置信息和所述第二位置信息进行合并,得到位置信息集合;以及根据所述位置信息集合,确定第三位置信息,其中,所述第三位置信息为用于表示所述待处理目标词在所述待处理语句中的位置信息。

【技术特征摘要】
1.一种确定词语位置的方法,其特征在于,包括:确定待处理文本,其中,所述待处理文本中包括待处理语句,所述待处理语句包括待处理目标词;获取第一位置信息和第二位置信息,其中,所述第一位置信息为用于表示所述待处理语句在所述待处理文本中的位置信息,所述第二位置信息为用于表示所述待处理目标词在所述待处理文本中的位置信息;将所述第一位置信息和所述第二位置信息进行合并,得到位置信息集合;以及根据所述位置信息集合,确定第三位置信息,其中,所述第三位置信息为用于表示所述待处理目标词在所述待处理语句中的位置信息。2.根据权利要求1所述的方法,其特征在于,在得到所述位置信息集合之后,在根据所述位置信息集合,确定第三位置信息之前,所述方法还包括:对所述第一位置信息和所述第二位置信息进行排序处理,得到排序后的位置信息集合,根据所述位置信息集合,确定第三位置信息还包括:通过遍历所述排序后的位置信息集合确定所述第三位置信息。3.根据权利要求2所述的方法,其特征在于,通过遍历所述排序后的位置信息集合确定所述第三位置信息包括:确定第一排序位置信息和第二排序位置信息,其中,所述第一排序位置信息为所述排序后的位置信息集合中当前待处理语句的位置信息,所述第二排序位置信息为所述第一排序位置信息的下一位置信息;当所述第二排序位置信息对应的是待处理目标词时,确定所述待处理目标词存在于所述当前待处理语句中;以及获取所述待处理目标词在所述当前待处理语句中的位置信息,作为所述第三位置信息。4.根据权利要求3所述的方法,其特征在于,当所述第二排序位置信息对应的是待处理语句时,所述方法还包括:确定所述第二排序位置信息对应的待处理词句为所述当前待处理语句;以及根据所述当前待处理语句重新确定所述第一排序位置信息,直到遍历完成所述排序后的位置信息集合。5.根据权利要求2所述的方法,其特征在于,对所述第一位置信息和所述第二位置信息进行排序处理,得到排序后的位置信息集合包括:确定所述位置信息集合中的每个位置信息的权重值;以及根据所述权重值,对所述位置信息集合中的位置信息进行排序,得到排序后的位置信息集合。6.根据权利要求1所述的方法,其特征在于,获取第一位置信息和...

【专利技术属性】
技术研发人员:何鑫
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1