一种短语语料库的构建方法、装置、设备和存储介质制造方法及图纸

技术编号:31571091 阅读:23 留言:0更新日期:2021-12-25 11:10
本发明专利技术公开了一种短语语料库的构建方法,包括:获取若干高质量短语和词性标注语料库;基于词性标注语料库,根据高质量短语生成短语模式对;其中,短语模式对包括高质量短语,以及与高质量短语对应的初始短语模式;基于词性标注语料库,根据初始短语模式,生成与初始短语模式对应的初始短语;根据初始短语,构建短语语料库。本发明专利技术还公开了一种短语语料库的构建装置、设备和存储介质,其能够根据获取的高质量短语和词性标注语料库,得到短语模式,进而根据短语模式和词性标注语料库,获得初始短语,以构建短语语料库,削弱了现有的规则制定所带来的主观性影响,适用于多种语言的短语语料库的快速构建。料库的快速构建。料库的快速构建。

【技术实现步骤摘要】
一种短语语料库的构建方法、装置、设备和存储介质


[0001]本专利技术涉及自然语言
,具体的说,涉及的是一种短语语料库的构建方法、装置、设备和存储介质。

技术介绍

[0002]随着大数据时代的发展,从海量、动态增长的语料库中自动提取高质量的短语受到了越来越多的关注,目前的短语语料库的构建大多是基于统计特征或基于数据驱动的,需要语言专家来设置规则或标记短语。基于规则的方法主要是通过手工编制包含繁杂的语法或语义信息的词典和规则系统,不仅费时费力,带有很强的主观性,而且难以总结不同语言的词性规则和规则的一致性,规则覆盖面窄,使其无法应用于不同语种的短语语料库构建。

技术实现思路

[0003]本专利技术实施例的目的是提供一种短语语料库的构建方法、装置、设备和存储介质,其能够根据获取的高质量短语和词性标注语料库,得到短语模式,进而根据短语模式和词性标注语料库,获得初始短语,以构建短语语料库,削弱了现有的规则制定所带来的主观性影响,适用于多种语言的短语语料库的快速构建。
[0004]为实现上述目的,本专利技术实施例提供了一种短语语料库的构建方法,包括:
[0005]获取若干高质量短语和词性标注语料库;
[0006]基于所述词性标注语料库,根据所述高质量短语生成短语模式对;其中,短语模式对包括所述高质量短语,以及与所述高质量短语对应的初始短语模式;
[0007]基于所述词性标注语料库,根据所述初始短语模式,生成与所述初始短语模式对应的初始短语;
[0008]根据所述初始短语,构建短语语料库。
[0009]作为上述方案的改进,
[0010]所述基于所述词性标注语料库,根据所述初始短语模式,生成与所述初始短语模式对应的初始短语,具体包括:
[0011]统计与初始短语模式对应的高质量短语的数量;
[0012]当所述与初始短语模式对应的高质量短语的数量大于预设数量阈值时,将该初始短语模式作为候选短语模式;
[0013]基于所述词性标注语料库,根据所述候选短语模式,生成与所述候选短语模式对应的初始短语。
[0014]作为上述方案的改进,所述基于所述词性标注语料库,根据所述高质量短语生成短语模式对,具体包括:
[0015]根据所述高质量短语,遍历所述词性标注语料库,得到与所述高质量短语对应的初始短语模式;
[0016]根据所述高质量短语和所述与所述高质量短语对应的初始短语模式,生成短语模式对。
[0017]作为上述方案的改进,所述基于所述词性标注语料库,根据所述候选短语模式,生成与所述候选短语模式对应的初始短语,具体包括:
[0018]根据所述候选短语模式的第一人工标注信息,筛选出若干候选短语模式作为目标短语模式;
[0019]基于所述词性标注语料库,根据所述目标短语模式,生成与所述目标短语模式对应的初始短语。
[0020]作为上述方案的改进,所述根据所述初始短语,构建短语语料库,具体包括:
[0021]根据与所述初始短语对应的初始短语模式,对所述初始短语进行分类,得到若干初始短语组;
[0022]从每一所述初始短语组中随机选取若干初始短语作为候选短语;
[0023]根据所述候选短语的第二人工标注信息,筛选出若干候选短语作为目标短语;
[0024]根据所述目标短语,构建短语语料库。
[0025]作为上述方案的改进,所述高质量短语,通过以下方式获取:
[0026]爬取维基百科中的短语作为高质量短语。
[0027]为实现上述目的,本专利技术实施例还提供了一种短语语料库的构建装置,包括:
[0028]数据获取模块,用于获取若干高质量短语和词性标注语料库;
[0029]模式对生成模块,用于基于所述词性标注语料库,根据所述高质量短语生成短语模式对;其中,短语模式对包括所述高质量短语,以及与所述高质量短语对应的初始短语模式;
[0030]短语生成模块,用于基于所述词性标注语料库,根据所述初始短语模式,生成与所述初始短语模式对应的初始短语;
[0031]语料库构建模块,用于根据所述初始短语,构建短语语料库。
[0032]作为上述方案的改进,所述短语生成模块,具体包括:
[0033]频数统计单元,用于统计与初始短语模式对应的高质量短语的数量;
[0034]模式选择单元,用于当所述与初始短语模式对应的高质量短语的数量大于预设数量阈值时,将该初始短语模式作为候选短语模式;
[0035]短语生成单元,用于基于所述词性标注语料库,根据所述候选短语模式,生成与所述候选短语模式对应的初始短语。
[0036]作为上述方案的改进,所述模式对生成模块,具体包括:
[0037]模式获取单元,用于根据所述高质量短语,遍历所述词性标注语料库,得到与所述高质量短语对应的初始短语模式;
[0038]模式对生成单元,用于根据所述高质量短语和所述与所述高质量短语对应的初始短语模式,生成短语模式对。
[0039]为实现上述目的,本专利技术实施例还提供了一种短语语料库的构建设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一实施例所述的短语语料库的构建方法。
[0040]为实现上述目的,本专利技术实施例还提供了一种计算机可读存储介质,所述计算机
可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一实施例所述的短语语料库的构建方法。
[0041]与现有技术相比,本专利技术实施例公开的一种短语语料库的构建方法、装置、设备和存储介质,通过获取若干高质量短语和词性标注语料库,以生成短语模式对;其中,短语模式对包括所述高质量短语,以及与所述高质量短语对应的初始短语模式;基于所述词性标注语料库,通过根据所述初始短语模式,来生成与所述初始短语模式对应的初始短语,以构建短语语料库。由此可见,本专利技术实施例能够根据获取的高质量短语和词性标注语料库,得到短语模式,进而根据短语模式和词性标注语料库,获得初始短语,以构建短语语料库,削弱了现有的规则制定所带来的主观性影响,适用于多种语言的短语语料库的快速构建。
附图说明
[0042]图1是本专利技术一实施例提供的一种短语语料库的构建方法的流程图;
[0043]图2是本专利技术一实施例提供的另一种短语语料库的构建方法的流程图;
[0044]图3是本专利技术一实施例提供的一种短语语料库的构建装置的结构框图;
[0045]图4是本专利技术一实施例提供的一种短语生成模块的结构框图;
[0046]图5是本专利技术一实施例提供的一种模式对生成模块的结构框图;
[0047]图6是本专利技术一实施例提供的一种短语语料库的构建设备的结构框图。
具体实施方式
[0048]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种短语语料库的构建方法,其特征在于,包括:获取若干高质量短语和词性标注语料库;基于所述词性标注语料库,根据所述高质量短语生成短语模式对;其中,短语模式对包括所述高质量短语,以及与所述高质量短语对应的初始短语模式;基于所述词性标注语料库,根据所述初始短语模式,生成与所述初始短语模式对应的初始短语;根据所述初始短语,构建短语语料库。2.如权利要求1所述的短语语料库的构建方法,其特征在于,所述基于所述词性标注语料库,根据所述初始短语模式,生成与所述初始短语模式对应的初始短语,具体包括:统计与初始短语模式对应的高质量短语的数量;当所述与初始短语模式对应的高质量短语的数量大于预设数量阈值时,将该初始短语模式作为候选短语模式;基于所述词性标注语料库,根据所述候选短语模式,生成与所述候选短语模式对应的初始短语。3.如权利要求1所述的短语语料库的构建方法,其特征在于,所述基于所述词性标注语料库,根据所述高质量短语生成短语模式对,具体包括:根据所述高质量短语,遍历所述词性标注语料库,得到与所述高质量短语对应的初始短语模式;根据所述高质量短语和所述与所述高质量短语对应的初始短语模式,生成短语模式对。4.如权利要求2所述的短语语料库的构建方法,其特征在于,所述基于所述词性标注语料库,根据所述候选短语模式,生成与所述候选短语模式对应的初始短语,具体包括:根据所述候选短语模式的第一人工标注信息,筛选出若干候选短语模式作为目标短语模式;基于所述词性标注语料库,根据所述目标短语模式,生成与所述目标短语模式对应的初始短语。5.如权利要求1所述的短语语料库的构建方法,其特征在于,所述根据所述初始短语,构建短语语料库,具体包括:根据与所述初始短语对应的初始短语模式,对所述初始短语进行分类,得到若干初始短语组...

【专利技术属性】
技术研发人员:蒋盛益林晓钿林楠铠
申请(专利权)人:广东外语外贸大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1