本发明专利技术涉及一种中文文本语料预处理方法、与之对应的装置、系统和存储介质。该方法包括:读取待处理语料样本;将语料样本转换为字序列;将字序列中的字逐个转换为部首偏旁序列或声母韵母序列,从而将语料样本转换成部首偏旁序列或声母韵母序列;以及将语料样本转换成的部首偏旁序列或声母韵母序列向量化。本发明专利技术采用对字进行拆分的方式对语料样本进行处理,通过基于字的拆分进行语料转换,将语料样本转换为部首偏旁序列或声母韵母序列组成的语料,然后基于部首偏旁编码库或声母韵母编码库对语料样本进行向量化,该处理方式增强了不同语料样本之间的特征,实现了对语料样本特征更充分的发掘。的发掘。的发掘。
【技术实现步骤摘要】
中文文本语料预处理方法、装置、系统和存储介质
[0001]本专利技术涉及自然语言处理
,特别是涉及一种中文文本语料预处理方法、装置、系统和存储介质。
技术介绍
[0002]自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,旨在从文本数据中提取信息,目的是让计算机处理或“理解”自然语言,以执行自动翻译、文本分类和情感分析等。
[0003]在处理自然语言处理的相关任务时,首要任务是对文本数据进行预处理,通常包括语料样本清洗、分词和向量化等。中文具有独特的性质,文本切分的最小单位可以是字,可以进行字编码处理,同时也可以构建词库对中文文本进行分词后,再进行词向量编码处理。中文处理大多进行到词,获得语料样本后首先构建词库,然后再构建词向量。向量具有数学运算的特性,利用向量运算求得两个词向量之间的向量运算值,根据值的差异性来区分不同词之间的关系。
[0004]然而现有的预处理方案普遍存在难以有效表达词与词间的关系,对语料样本特征的发掘不足的问题。
技术实现思路
[0005]本专利技术提供了一种中文文本语料预处理方法、装置、系统和存储介质,以至少解决现有技术中存在的语料样本特征发掘不足的技术问题。
[0006]本专利技术的第一方面,提供了一种中文文本语料预处理方法,包括:读取待处理的语料样本;将所述语料样本转换为字序列;将所述字序列中的字逐个转换为部首偏旁序列或声母韵母序列,从而将所述语料样本转换成部首偏旁序列或声母韵母序列;以及将所述语料样本转换成的所述部首偏旁序列或所述声母韵母序列向量化。
[0007]本专利技术的第二方面,提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上本专利技术第一方面提供的方法。
[0008]本专利技术的第三方面,提供了一种文文本语料预处理装置,包括:读取模块,用于读取待处理的语料样本;字切分模块,用于将所语料样本转换为字序列;部首偏旁序列或声母韵母序列转换模块,用于将所述字序列中的字逐个转换为部首偏旁序列或声母韵母序列,从而将所述语料样本转换成部首偏旁序列或声母韵母序列;以及向量化模块,用于将所述语料样本转换成的所述部首偏旁序列或声母韵母序列向量化。
[0009]本专利技术的第四方面,提供了一种文文本语料预处理系统,包括:处理器;以及与所述处理器连接的存储器,所述存储器存储有程序,在所述程序运行时由所述处理器执行本专利技术第一方面提供的方法。
[0010]在本专利技术的上述技术方案中,采用对字进行拆分的方式对语料样本进行处理,通
过基于字的拆分进行语料转换,将语料样本转换为部首偏旁序列或声母韵母序列组成的语料,然后基于部首偏旁编码库或声母韵母编码库对语料样本进行向量化,该处理方式对原文的语义以及词序等无影响,同时部首偏旁和声母韵母作为比字更细小的单位,增强了不同语料样本之间的特征,实现了对语料样本特征更充分的发掘。
附图说明
[0011]此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0012]图1是用于实现根据本专利技术实施例1所述的方法的计算设备的硬件结构框图;
[0013]图2是根据本专利技术实施例1的第一方面所述的中文文本语料预处理方法的流程示意图;
[0014]图3是根据本专利技术实施例1的第二方面所述的中文文本语料预处理方法的流程示意图;
[0015]图4是根据本专利技术实施例2的第一方面所述的中文文本语料预处理装置的示意图;
[0016]图5是根据本专利技术实施例2的第二方面所述的中文文本语料预处理装置的示意图;
[0017]图6是根据本专利技术实施例3所述的中文文本语料预处理系统的示意图。
具体实施方式
[0018]为了使本
的人员更好地理解本专利技术的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0019]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0020]实施例1
[0021]根据本实施例,提供了一种中文文本语料预处理方法的实施例。
[0022]本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现本实施例提供的中文文本语料预处理方法的计算设备的硬件结构框图。如图1所示,计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装
置的结构造成限定。例如,计算设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
[0023]应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备中的其他元件中的任意一个内。
[0024]存储器可用于存储应用软件的软件程序以及模块,如本专利技术实施例中的中文文本语料预处理方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的中文文本语料预处理方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0025]传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种中文文本语料预处理方法,其特征在于,包括:读取待处理的语料样本;将所述语料样本转换为字序列;将所述字序列中的字逐个转换为部首偏旁序列或声母韵母序列,从而将所述语料样本转换成部首偏旁序列或声母韵母序列;以及将所述语料样本转换成的所述部首偏旁序列或所述声母韵母序列向量化。2.根据权利要求1所述的中文文本语料预处理方法,其特征在于:所述读取待处理的语料样本还包括对所述语料样本进行清洗。3.根据权利要求2所述的中文文本语料预处理方法,其特征在于:所述清洗包括去除无用的符号、过滤停用词和/或去除低频词。4.根据权利要求1所述的中文文本语料预处理方法,其特征在于:所述将所述字序列中的字逐个转换为部首偏旁序列或声母韵母序列包括根据汉字拆分库将所述字序列中的字逐个转换为部首偏旁序列或声母韵母序列,所述汉字拆分库,以单个汉字为索引,每个汉字唯一对应一个部首偏旁组成的序列或唯一对应一个声母韵母组成的序列。5.根据权利要求1所述的中文文本语料预处理方法,其特征在于:所述将所述语料样本转换成的所述部首偏旁序列或所述声母韵母序列向量化包括根据部首偏旁编码库或声母韵母编码库,对所述部首偏旁序列或所述声母韵母序列进行编码运算得到多维向量,所述部首偏旁编码库或声母韵母编码库对汉字部首偏旁或汉字拼音的声母韵母进行编码成库,每个部首和每个偏旁分别对应一个编码或每个声母和每个韵母分别对应一个编码。6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行根据权利要求1
...
【专利技术属性】
技术研发人员:张永兴,周健,
申请(专利权)人:北京有限元科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。