中文文本语料预处理方法、装置、系统和存储介质制造方法及图纸

技术编号:36700429 阅读:38 留言:0更新日期:2023-03-01 09:16
本发明专利技术涉及一种中文文本语料预处理方法、与之对应的装置、系统和存储介质。该方法包括:读取待处理语料样本;将语料样本转换为字序列;将字序列中的字逐个转换为部首偏旁序列或声母韵母序列,从而将语料样本转换成部首偏旁序列或声母韵母序列;以及将语料样本转换成的部首偏旁序列或声母韵母序列向量化。本发明专利技术采用对字进行拆分的方式对语料样本进行处理,通过基于字的拆分进行语料转换,将语料样本转换为部首偏旁序列或声母韵母序列组成的语料,然后基于部首偏旁编码库或声母韵母编码库对语料样本进行向量化,该处理方式增强了不同语料样本之间的特征,实现了对语料样本特征更充分的发掘。的发掘。的发掘。

【技术实现步骤摘要】
中文文本语料预处理方法、装置、系统和存储介质


[0001]本专利技术涉及自然语言处理
,特别是涉及一种中文文本语料预处理方法、装置、系统和存储介质。

技术介绍

[0002]自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,旨在从文本数据中提取信息,目的是让计算机处理或“理解”自然语言,以执行自动翻译、文本分类和情感分析等。
[0003]在处理自然语言处理的相关任务时,首要任务是对文本数据进行预处理,通常包括语料样本清洗、分词和向量化等。中文具有独特的性质,文本切分的最小单位可以是字,可以进行字编码处理,同时也可以构建词库对中文文本进行分词后,再进行词向量编码处理。中文处理大多进行到词,获得语料样本后首先构建词库,然后再构建词向量。向量具有数学运算的特性,利用向量运算求得两个词向量之间的向量运算值,根据值的差异性来区分不同词之间的关系。
[0004]然而现有的预处理方案普遍存在难以有效本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种中文文本语料预处理方法,其特征在于,包括:读取待处理的语料样本;将所述语料样本转换为字序列;将所述字序列中的字逐个转换为部首偏旁序列或声母韵母序列,从而将所述语料样本转换成部首偏旁序列或声母韵母序列;以及将所述语料样本转换成的所述部首偏旁序列或所述声母韵母序列向量化。2.根据权利要求1所述的中文文本语料预处理方法,其特征在于:所述读取待处理的语料样本还包括对所述语料样本进行清洗。3.根据权利要求2所述的中文文本语料预处理方法,其特征在于:所述清洗包括去除无用的符号、过滤停用词和/或去除低频词。4.根据权利要求1所述的中文文本语料预处理方法,其特征在于:所述将所述字序列中的字逐个转换为部首偏旁序列或声母韵母序列包括根据汉字拆分库将所述字序列中的字逐个转换为部首偏旁序列或声母韵母序列,所述汉字拆分库,以单个汉字为索引,每个汉字唯一对应一个部首偏旁组成的序列或唯一对应一个声母韵母组成的序列。5.根据权利要求1所述的中文文本语料预处理方法,其特征在于:所述将所述语料样本转换成的所述部首偏旁序列或所述声母韵母序列向量化包括根据部首偏旁编码库或声母韵母编码库,对所述部首偏旁序列或所述声母韵母序列进行编码运算得到多维向量,所述部首偏旁编码库或声母韵母编码库对汉字部首偏旁或汉字拼音的声母韵母进行编码成库,每个部首和每个偏旁分别对应一个编码或每个声母和每个韵母分别对应一个编码。6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行根据权利要求1
...

【专利技术属性】
技术研发人员:张永兴周健
申请(专利权)人:北京有限元科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1