【技术实现步骤摘要】
本申请涉及分词
,特别是涉及一种基于图形处理器GPU的分词方法和一种基于图形处理器GPU的分词装置。
技术介绍
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,在词这一层上,中文比之英文要复杂的多、困难的多。目前所有的分词系统,无论采用什么分词算法,都是运行在基于CPU(CentralProcessingUnit,中央处理器)的计算系统之上的。虽然现有的分词算法一般计算过程都相对简单,但是由于分词过程中数据操作量大,使得分词耗时过长,而主要的耗时操作主要集中在对内存内数据读取的延时上。
技术实现思路
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于图形处理器GPU的分词方法和相应的一种基于图形处理器GPU的分词装置。为了解决上述问题,本申请实施例公开了一种基于图形处理器GPU的分词方法,其中,所述的图形处理器GPU包括:内存、多个线程集合;所述的方法包括:将预设的分词词典以及预先获取的待分词文本加载到图形处理器GPU的内存中;确定当前GPU中的可用的线程集合;将所述分词词典,分配到一个或多个可用的线程集合中;采用所述一个或多个可用的线程集合对所述待分词文本进行分词。优选的, ...
【技术保护点】
一种基于图形处理器GPU的分词方法,其特征在于,所述的图形处理器GPU包括:内存、多个线程集合;所述的方法包括:将预设的分词词典以及预先获取的待分词文本加载到图形处理器GPU的内存中;确定当前GPU中的可用的线程集合;将所述分词词典,分配到一个或多个可用的线程集合中;采用所述一个或多个可用的线程集合对所述待分词文本进行分词。
【技术特征摘要】
1.一种基于图形处理器GPU的分词方法,其特征在于,所述的图形处
理器GPU包括:内存、多个线程集合;所述的方法包括:
将预设的分词词典以及预先获取的待分词文本加载到图形处理器GPU
的内存中;
确定当前GPU中的可用的线程集合;
将所述分词词典,分配到一个或多个可用的线程集合中;
采用所述一个或多个可用的线程集合对所述待分词文本进行分词。
2.根据权利要求1所述的方法,其特征在于,所述线程集合包括:多
个线程单元;所述采用所述一个或多个可用的线程集合对所述待分词文本进
行分词的步骤包括:
在所述一个或多个可用的线程集合中加载所述待分词文本;
确定所述一个或多个线程集合中可用的线程单元;
将所述一个或多个线程集合中加载的待分词文本拆分为多个子段落;
在所述一个或多个线程集合中,将对应的分词文本拆分得到的子段落分
配到线程集合内的各个可用的线程单元中进行分词。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述分词词
典分配到一个或多个可用的线程集合中的步骤包括:
将所述分词词典拆分为多个子词典;
将各个子词典分配到多个可用的线程集合。
4.根据权利要求3所述的方法,其特征在于,所述将各个子词典分配
到多个可用的线程集合的步骤包括:
按照可用线程集合的数目,将分词词典平均拆分为多个子词典;
或,按照分词词典内各个词条预设的权重,将分词词典拆分为多个子词
典。
5.根据权利要求4所述的方法,其特征在于,还包括:
当采用多个线程集合进行分词时,将线程集合内各个线程单元分词后得
到已分词段落进行合并,得到单集合分词文本;
从所述一个或多个线程集合的单集合分词文本中,选取分词得到的词条
\t进行合并,得到多集合分词文本。
6.根据权利要求1或2或3或4或5所述的方法,其特征在于,所述
确定当前GPU中的可用的线程集合的步骤包括:
通过GPU预设的API接口,确定当前GPU中的可用的线程集合。
7.根据权利要求2或3或4或5所述的方法,其特征在于,所述确定
所述一个或多个可用的线程集合中可用的线程单元的步骤包括:
通过GPU预设的API接口,确定所述一个或多个可用的线程集合中可
用的线程单元。
8.一种基于图形处理器GPU的分词装置,其特征在于,所述的图形处
理器GPU包括:内存、多个线程集合;所述的装置包括:
GPU加载模块,用于将预设的分...
【专利技术属性】
技术研发人员:潘昊,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。