用于构建词库的方法、系统、装置和存储介质制造方法及图纸

技术编号:34170394 阅读:16 留言:0更新日期:2022-07-17 10:37
本申请涉及数据处理技术,特别涉及一种用于构建词库的方法、数据处理系统、装置和实现上述方法的计算机可读存储介质。按照本申请的用于构建词库的方法,包括在计算机系统处执行的下列步骤:A、基于与所构建词库的应用领域相关的数据,生成初始文本集;B、基于初始文本集生成多个文本子集,其中每个文本子集包括相应语言类型的字符和符号;C、分别对每个文本子集进行关键词提取;以及D、基于所提取的关键词构建词库。建词库。建词库。

【技术实现步骤摘要】
用于构建词库的方法、系统、装置和存储介质


[0001]本申请涉及数据处理技术,特别涉及一种用于构建词库的方法、数据处理系统、装置和实现上述方法的计算机可读存储介质。

技术介绍

[0002]专业词库是特定领域中关键词的集合,它的质量关系到专业信息提取、内容分析、以及智能化管理应用的成败。目前,在包括数据运维领域在内的各个领域中,均存在文本信息数据分散、格式不统一、尤其是各种语言类型夹杂的问题。基于传统的关键词提取方法构建的专业词库由于没有充分考虑到文本信息数据分散、格式不统一的特点,因此已经不能满足日益提高的关键词提取的要求。
[0003]为此,如何快速、高效地提取关键词特征,构建具有更高准确度、更高召回率的专业词库已经成为当前亟待完成的任务。

技术实现思路

[0004]按照本申请的一个方面,提供一种用于构建词库的方法,其特征在于,所述方法包括在计算机系统处执行的下列步骤:
[0005]A、基于与所构建词库的应用领域相关的数据,生成初始文本集;
[0006]B、基于所述初始文本集生成多个文本子集,其中每个文本子集包括相应语言类型的字符和符号;
[0007]C、分别对每个所述文本子集进行关键词提取;以及
[0008]D、基于所提取的关键词构建所述词库。
[0009]可选地,在上述方法中,所述词库用于数据中心的运行和维护。
[0010]可选地,在上述方法中,与所构建词库的应用领域相关的数据包括结构化数据和非结构化数据。
[0011]可选地,在上述方法中,在步骤A中,利用以下方式生成所述初始文本集:将与所构建词库的应用领域相关的数据以表输入的形式采集到所述初始文本集中。
[0012]可选地,在上述方法中,步骤B包括:
[0013]B1、遍历所述初始文本集,提取第一语言类型的字符和符号,并生成第一文本子集;以及
[0014]B2、遍历所述初始文本集,提取第二语言类型的字符和符号,并生成第二文本子集。
[0015]可选地,在上述方法中,在步骤B中,以下列方式生成所述第一文本子集和所述第二文本子集:采用正则表达式匹配算法提取特定语言类型的字符和符号直到整个所述初始文本集被遍历。
[0016]可选地,在上述方法中,所述第一语言类型为中文并且所述第二语言类型为英文。
[0017]可选地,在上述方法中,在步骤C中,利用新词发现算法或基于信息熵模型的算法
对所述第一文本子集进行关键词提取。
[0018]可选地,在上述方法中,在步骤C中,利用TF

IDF算法或TextRank算法对所述第二文本子集进行关键词提取。
[0019]可选地,在上述方法中,步骤C包括:
[0020]C1、计算所述第一文本子集中相邻字串的点间互信息值;
[0021]C2、基于所述点间互信息值,计算所述相邻字串的凝固度;以及C3、基于所述凝固度,生成关键词条目。
[0022]可选地,在上述方法中,步骤C3包括:
[0023]将所述凝固度大于等于N

1的相邻字串作为关键词条目,其中N为词库词长的最大值。
[0024]可选地,在上述方法中,步骤D包括:
[0025]对所提取的关键词进行修正,并将修正后的关键词加入所述词库。
[0026]可选地,在上述方法中,步骤D包括:
[0027]对所提取的关键词进行去重以及合并,并将去重以及合并后的关键词加入所述词库。
[0028]按照本申请另一方面,提供了一种数据处理系统,包含:
[0029]存储器;
[0030]处理器;以及
[0031]存储在所述存储器上并可在所述处理器上运行的计算机程序,该计算机程序的运行导致下列操作:
[0032]A、基于与所构建词库的应用领域相关的数据,生成初始文本集;
[0033]B、基于所述初始文本集生成多个文本子集,其中每个文本子集包括相应语言类型的字符和符号;
[0034]C、分别对每个所述文本子集进行关键词提取;以及
[0035]D、基于所提取的关键词构建所述词库。
[0036]按照本申请又一方面,提供了一种用于构建词库的数据处理装置,包含:
[0037]第一生成模块,其配置成基于与所构建词库的应用领域相关的数据,生成初始文本集;
[0038]第二生成模块,其配置成基于所述初始文本集生成多个文本子集,其中每个文本子集包括相应语言类型的字符和符号;
[0039]关键词提取模块,其配置成分别对每个所述文本子集进行关键词提取;以及
[0040]词库创建模块,其配置成基于所提取的关键词构建所述词库。
[0041]可选地,在上述装置中,所述词库用于数据中心的运行和维护。
[0042]可选地,在上述装置中,与所构建词库的应用领域相关的数据包括结构化数据和非结构化数据。
[0043]可选地,在上述装置中,所述第一生成模块进一步配置成利用以下方式生成所述初始文本集:
[0044]将与所构建词库的应用领域相关的数据以表输入的形式采集到所述初始文本集中。
[0045]可选地,在上述装置中,所述第二生成模块进一步配置成:
[0046]B1、遍历所述初始文本集,提取第一语言类型的字符和符号,并生成第一文本子集;以及
[0047]B2、遍历所述初始文本集,提取第二语言类型的字符和符号,并生成第二文本子集。
[0048]可选地,在上述装置中,所述第二生成模块进一步配置成以下列方式生成所述第一文本子集和所述第二文本子集:
[0049]采用正则表达式匹配算法提取特定语言类型的字符和符号直到整个所述初始文本集被遍历。
[0050]可选地,在上述装置中,所述第一语言类型为中文并且所述第二语言类型为英文。
[0051]可选地,在上述装置中,所述关键词提取模块进一步配置成利用新词发现算法或基于信息熵模型的算法对所述第一文本子集进行关键词提取。
[0052]可选地,在上述装置中,所述关键词提取模块进一步配置成利用TF

IDF算法或TextRank算法对所述第二文本子集进行关键词提取。
[0053]可选地,在上述装置中,所述关键词提取模块进一步配置成:
[0054]计算所述第一文本子集中相邻字串的点间互信息值;
[0055]基于所述点间互信息值,计算所述相邻字串的凝固度;以及基于所述凝固度,生成关键词条目。
[0056]可选地,在上述装置中,所述关键词提取模块进一步配置成利用下列方式生成关键词条目:
[0057]将所述凝固度大于等于N

1的相邻字串作为关键词条目,其中N为词库词长的最大值。
[0058]可选地,在上述装置中,所述词库创建模块进一步配置成:
[0059]对所提取的关键词进行修正,并将修正后的关键词加入所述词库。
...

【技术保护点】

【技术特征摘要】
1.一种用于构建词库的方法,其特征在于,所述方法包括在计算机系统处执行的下列步骤:A、基于与所构建词库的应用领域相关的数据,生成初始文本集;B、基于所述初始文本集生成多个文本子集,其中每个文本子集包括相应语言类型的字符和符号;C、分别对每个所述文本子集进行关键词提取;以及D、基于所提取的关键词构建所述词库。2.根据权利要求1所述的方法,其中,所述词库用于数据中心的运行和维护。3.根据权利要求1所述的方法,其中,与所构建词库的应用领域相关的数据包括结构化数据和非结构化数据。4.根据权利要求1所述的方法,其中,在步骤A中,利用以下方式生成所述初始文本集:将与所构建词库的应用领域相关的数据以表输入的形式采集到所述初始文本集中。5.根据权利要求1所述的方法,其中,步骤B包括:B1、遍历所述初始文本集,提取第一语言类型的字符和符号,并生成第一文本子集;以及B2、遍历所述初始文本集,提取第二语言类型的字符和符号,并生成第二文本子集。6.根据权利要求5所述的方法,其中,在步骤B中,以下列方式生成所述第一文本子集和所述第二文本子集:采用正则表达式匹配算法提取特定语言类型的字符和符号直到整个所述初始文本集被遍历。7.根据权利要求5所述的方法,其中,所述第一语言类型为中文并且所述第二语言类型为英文。8.根据权利要求7所述的方法,其中,在步骤C中,利用新词发现算法或基于信息熵模型的算法对所述第一文本子集进行关键词提取。9.根据权利要求7所述的方法,其中,在步骤C中,利用TF

IDF算法或TextRank算法对所述第二文本子集进行关键词提取。10.根据权利要求8所述的方法,其中,步骤C包括:C1、计算所述第一文本子集中相邻字串的点间互信息值;C2、基于所述点间互信息值,计算所述相邻字串的凝固度;以及C3、基于所述凝固度,生成关键词条目。11.根据权利要求10所述的方法,其中,步骤C3包括:将所述凝固度大于等于N

1的相邻字串作为关键词条目,其中N为词库词长的最大值。12.根据权利要求1所述的方法,其中,步骤D包括:对所提取的关键词进行修正,并将修正后的关键词加入所述词库。13.根据权利要求1所述的方法,其中,步骤D包括:对所提取的关键词进行去重以及合并,并将去重以及合并后的关键词加入所述词库。14.一种数据处理系统,其特征在于,包含:存储器;处理器;以及
存储在所述存储器上并可在所述处理器上运行的计算机程序,该计算机程序的运行导致下列操作:A、基于与所构建词库的应用领域相关的数据,生成初始文本集;B、基于所述初始文本集生成多个文本子集,其中每个文本子集包括相应语言类型的字符和符号;C、分别对每个所述文本子集进行关键词提取;以及D、基于所提取的关键词构建所述词库。15.根据权利要求14所述的数据处理系统,其中,所述词库用于数据中心的运行和维护。16.根据权利要求14所述的数据处理系统,其中,与所构建词库的应用领域相关的数据包括结构化数据和非结构化数据。17.根据权利要求14所述的数据处理系统,其中,所述计算机程序的运行导致在步骤A中利用以下方式生成所述初始文本集:将与所构建词库的应用领域相关的数据以表输入的形式采集到所述初始文本集中。18.根据权利要求14所述的数据处理系统,其中,所述计算机程序的运行导致步骤B以下列方式执行:B1、遍历所述初始文本集,提取第一语言类型的字符和符号,并生成第一文本子集;以及B2、遍历所述初始文本集,提取第二语言类型的字符和符号,并生成第二文本子集。19.根据权利要求18所述的数据处理系统,其中,所述计算机程序的运行导致在步骤B中以下列方式生成所述第一文本子集和所述第二文本子集:采用正则表达式匹配算法提取特定语言类型的字符和符号直到整个所述初始文本集被遍历。20.根据权利要求18所述的数据处理系统,其中,所述第一语言类型为中文并且所述第二语言类型为英文。21.根据权利要求20所述的数据处理系统,其中,在步骤C中,利用新词发现算法或基于信息熵模型的算法对所述第一文本子集进行关键词提取。22.根据...

【专利技术属性】
技术研发人员:郝建明宋泽锋戴月韩智东廉宜果李昂朱雅蓉刘松林朱伟
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1