一种基于图形处理器GPU的分词方法和装置制造方法及图纸

技术编号:15041838 阅读:123 留言:0更新日期:2017-04-05 14:11
本申请实施例提供了一种基于图形处理器GPU的分词方法,其中,所述的图形处理器GPU包括:内存、多个线程集合;所述的方法包括:将预设的分词词典以及预先获取的待分词文本加载到图形处理器GPU的内存中;确定当前GPU中的可用的线程集合;将所述分词词典,分配到一个或多个可用的线程集合中;采用所述一个或多个可用的线程集合对所述待分词文本进行分词。本申请实施例通过将分词词典加载到GPU中的多个线程集合中,采用多个线程集合对待分词文本进行分词;在每一个线程集合中通过多个可用的线程单元对待分词文本的一部分进行分词;有效利用GPU内存的高带宽以及并行计算能力,提高分词速度。

【技术实现步骤摘要】

本申请涉及分词
,特别是涉及一种基于图形处理器GPU的分词方法和一种基于图形处理器GPU的分词装置。
技术介绍
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,在词这一层上,中文比之英文要复杂的多、困难的多。目前所有的分词系统,无论采用什么分词算法,都是运行在基于CPU(CentralProcessingUnit,中央处理器)的计算系统之上的。虽然现有的分词算法一般计算过程都相对简单,但是由于分词过程中数据操作量大,使得分词耗时过长,而主要的耗时操作主要集中在对内存内数据读取的延时上。
技术实现思路
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于图形处理器GPU的分词方法和相应的一种基于图形处理器GPU的分词装置。为了解决上述问题,本申请实施例公开了一种基于图形处理器GPU的分词方法,其中,所述的图形处理器GPU包括:内存、多个线程集合;所述的方法包括:将预设的分词词典以及预先获取的待分词文本加载到图形处理器GPU的内存中;确定当前GPU中的可用的线程集合;将所述分词词典,分配到一个或多个可用的线程集合中;采用所述一个或多个可用的线程集合对所述待分词文本进行分词。优选的,所述线程集合包括:多个线程单元;所述采用所述一个或多个可用的线程集合对所述待分词文本进行分词的步骤包括:在所述一个或多个可用的线程集合中加载所述待分词文本;确定所述一个或多个线程集合中可用的线程单元;将所述一个或多个线程集合中加载的待分词文本拆分为多个子段落;在所述一个或多个线程集合中,将对应的分词文本拆分得到的子段落分配到线程集合内的各个可用的线程单元中进行分词。优选的,所述将所述分词词典分配到一个或多个可用的线程集合中的步骤包括:将所述分词词典拆分为多个子词典;将各个子词典分配到多个可用的线程集合。优选的,所述将各个子词典分配到多个可用的线程集合的步骤包括:按照可用线程集合的数目,将分词词典平均拆分为多个子词典;或,按照分词词典内各个词条预设的权重,将分词词典拆分为多个子词典。优选的,还包括:当采用多个线程集合进行分词时,将线程集合内各个线程单元分词后得到已分词段落进行合并,得到单集合分词文本;从所述一个或多个线程集合的单集合分词文本中,选取分词得到的词条进行合并,得到多集合分词文本。优选的,所述确定当前GPU中的可用的线程集合的步骤包括:通过GPU预设的API接口,确定当前GPU中的可用的线程集合。优选的,所述确定所述一个或多个可用的线程集合中可用的线程单元的步骤包括:通过GPU预设的API接口,确定所述一个或多个可用的线程集合中可用的线程单元。同时,本申请还公开了一种基于图形处理器GPU的分词装置,其中,所述的图形处理器GPU包括:内存、多个线程集合;所述的装置包括:GPU加载模块,用于将预设的分词词典以及预先获取的待分词文本加载到图形处理器GPU的内存中;线程集合确定模块,用于确定当前GPU中的可用的线程集合;词典分配模块,用于将所述分词词典,分配到一个或多个可用的线程集合中;线程集合分词模块,用于采用所述一个或多个可用的线程集合对所述待分词文本进行分词。优选的,所述线程集合包括:多个线程单元;所述线程集合分词模块进一步包括:分词文本加载子模块,用于在所述一个或多个可用的线程集合中加载所述待分词文本;线程单元确定子模块,用于确定所述一个或多个线程集合中可用的线程单元;文本拆分子模块,用于将所述一个或多个线程集合中加载的待分词文本拆分为多个子段落;子段落分配子模块,用于在所述一个或多个线程集合中,将对应的分词文本拆分得到的子段落分配到线程集合内的各个可用的线程单元中进行分词。优选的,所述将所述分词词典分配到一个或多个可用的线程集合中的步骤包括:词典拆分子模块,用于将所述分词词典拆分为多个子词典;子词典分配子模块,用于将各个子词典分配到多个可用的线程集合。优选的,所述子词典分配子模块进一步包括:平均分配子模块,用于按照可用线程集合的数目,将分词词典平均拆分为多个子词典;或,权重分配子模块,用于按照分词词典内各个词条预设的权重,将分词词典拆分为多个子词典。优选的,还包括:段落合并模块,用于当采用多个线程集合进行分词时,将线程集合内各个线程单元分词后得到已分词段落进行合并,得到单集合分词文本;选取合并模块,用于从所述一个或多个线程集合的单集合分词文本中,选取分词得到的词条进行合并,得到多集合分词文本。优选的,所述线程集合确定模块进一步包括:第一API确定子模块,用于通过GPU预设的API接口,确定当前GPU中的可用的线程集合。优选的,所述线程单元确定子模块进一步包括:第二API确定子模块,用于通过GPU预设的API接口,确定所述一个或多个可用的线程集合中可用的线程单元。本申请实施例包括以下优点:本申请实施例通过将分词词典加载到GPU中的多个线程集合中,采用多个线程集合对待分词文本进行分词;在每一个线程集合中通过多个可用的线程单元对待分词文本的一部分进行分词;有效利用GPU内存的高带宽以及并行计算能力,提高分词速度。附图说明图1是本申请的一种基于图形处理器GPU的分词方法实施例的步骤流程图;图2是本申请实施例中一种基于图形处理器GPU的分词方法实施例1的示意图;图3是本申请实施例中一种基于图形处理器GPU的分词方法实施例2的示意图;图4是本申请的一种基于图形处理器GPU的分词装置实施例的结构框图。具体实施方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。GPU(GraphicsProcessingUnit,图形处理器),最早被用来处理图像数据,因此目前的GPU计算也主要被运用于图形处理、视频转码或者语音分析等领域,而目前数据量最多的文本类分析和运算主要还是采用CPU。GPU相对于CPU在硬件架构上具有两个优势。其一是计算单元的优势,GPU有大量的并行计算单元,适合做大量的单指令流多数据流(本文档来自技高网...

【技术保护点】
一种基于图形处理器GPU的分词方法,其特征在于,所述的图形处理器GPU包括:内存、多个线程集合;所述的方法包括:将预设的分词词典以及预先获取的待分词文本加载到图形处理器GPU的内存中;确定当前GPU中的可用的线程集合;将所述分词词典,分配到一个或多个可用的线程集合中;采用所述一个或多个可用的线程集合对所述待分词文本进行分词。

【技术特征摘要】
1.一种基于图形处理器GPU的分词方法,其特征在于,所述的图形处
理器GPU包括:内存、多个线程集合;所述的方法包括:
将预设的分词词典以及预先获取的待分词文本加载到图形处理器GPU
的内存中;
确定当前GPU中的可用的线程集合;
将所述分词词典,分配到一个或多个可用的线程集合中;
采用所述一个或多个可用的线程集合对所述待分词文本进行分词。
2.根据权利要求1所述的方法,其特征在于,所述线程集合包括:多
个线程单元;所述采用所述一个或多个可用的线程集合对所述待分词文本进
行分词的步骤包括:
在所述一个或多个可用的线程集合中加载所述待分词文本;
确定所述一个或多个线程集合中可用的线程单元;
将所述一个或多个线程集合中加载的待分词文本拆分为多个子段落;
在所述一个或多个线程集合中,将对应的分词文本拆分得到的子段落分
配到线程集合内的各个可用的线程单元中进行分词。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述分词词
典分配到一个或多个可用的线程集合中的步骤包括:
将所述分词词典拆分为多个子词典;
将各个子词典分配到多个可用的线程集合。
4.根据权利要求3所述的方法,其特征在于,所述将各个子词典分配
到多个可用的线程集合的步骤包括:
按照可用线程集合的数目,将分词词典平均拆分为多个子词典;
或,按照分词词典内各个词条预设的权重,将分词词典拆分为多个子词
典。
5.根据权利要求4所述的方法,其特征在于,还包括:
当采用多个线程集合进行分词时,将线程集合内各个线程单元分词后得
到已分词段落进行合并,得到单集合分词文本;
从所述一个或多个线程集合的单集合分词文本中,选取分词得到的词条

\t进行合并,得到多集合分词文本。
6.根据权利要求1或2或3或4或5所述的方法,其特征在于,所述
确定当前GPU中的可用的线程集合的步骤包括:
通过GPU预设的API接口,确定当前GPU中的可用的线程集合。
7.根据权利要求2或3或4或5所述的方法,其特征在于,所述确定
所述一个或多个可用的线程集合中可用的线程单元的步骤包括:
通过GPU预设的API接口,确定所述一个或多个可用的线程集合中可
用的线程单元。
8.一种基于图形处理器GPU的分词装置,其特征在于,所述的图形处
理器GPU包括:内存、多个线程集合;所述的装置包括:
GPU加载模块,用于将预设的分...

【专利技术属性】
技术研发人员:潘昊
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1