语料库的构建方法、装置、设备以及存储介质制造方法及图纸

技术编号:31371738 阅读:27 留言:0更新日期:2021-12-15 10:12
本申请实施例公开了语料库的构建方法、装置、设备以及存储介质,涉及自然语言处理、深度学习等人工智能技术领域。该语料库的构建方法的一具体实施方式包括:采用用于表征词语在文本中的重要性的至少一个特征,构建词语的至少一个维度的特征向量,其中,至少一个特征是至少一个特征类型的特征;将至少一个维度的特征向量输入至训练完成的关键词预测模型,得到词语的预测结果;响应于预测结果为词语为关键词,将词语添加至语料库,从而可以从多个维度计算词语可能是关键词的概率,对词语有了更加全面的分析,得到的语料库也会更加准确。得到的语料库也会更加准确。得到的语料库也会更加准确。

【技术实现步骤摘要】
语料库的构建方法、装置、设备以及存储介质


[0001]本公开涉及计算机
,具体涉及自然语言处理、深度学习 等人工智能
,尤其涉及语料库的构建方法、装置、设备以及 存储介质。

技术介绍

[0002]构建语料库是自然语言处理相关业务的基础,其中通过提取文本 关键词来构建某一特定领域或特定业务的语料库是比较常见的方式。
[0003]目前对关键词的提取包括基于统计的计算方法和基于词语语义的 方法。基于词语语义的方法是通过词语的语义信息挖掘词语与文本主 题之间的语义联系。其中,基于词语语义的方法多集中于将基于图的 方法与语义信息结合,或是将关键词提取视为一个序列标注问题,利 用神经网络的方法提取词语的上下文本关系并结合条件随机场的方法 对关键词进行标注。

技术实现思路

[0004]本公开提供了语料库的构建方法、装置、设备以及存储介质。
[0005]根据本公开的第一方面,提供了一种语料库的构建方法,包括: 采用用于表征词语在文本中的重要性的至少一个特征,构建词语的至 少一个维度的特征向量,其中,至少一个特征是至少本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语料库的构建方法,包括:采用用于表征词语在文本中的重要性的至少一个特征,构建所述词语的至少一个维度的特征向量,其中,所述至少一个特征是至少一个特征类型的特征;将所述至少一个维度的特征向量输入至训练完成的关键词预测模型,得到所述词语的预测结果;响应于所述预测结果为所述词语为关键词,将所述词语添加至语料库。2.根据权利要求1所述的方法,其中,所述特征类型包括词频,所述词频的特征至少包括用于表征词语在文本中的逆频数加权值的词频反字频。3.根据权利要求1所述的方法,所述关键词预测模型的训练过程包括:获取样本集,其中,所述样本集中的样本包括词语的至少一个维度的特征向量以及指示所述词语是否为关键词的标签,其中,所述词语的至少一个维度的特征向量是采用用于表征词语在文本中的重要性的至少一个特征而构建的,其中,所述至少一个特征是至少一个特征类型的特征;将所述样本中的词语的至少一个维度的特征向量作为关键词预测模型的输入,将所述词语的标签作为关键词预测模型的期望输出,对关键词预测模型进行训练,得到训练完成的关键词预测模型。4.根据权利要求1所述的方法,在构建所述词语的至少一个维度的特征向量之前,所述方法还包括:将文本中属于预设类型的干扰词语进行过滤处理。5.根据权利要求1所述的方法,所述关键词预测模型为支持向量机分类模型。6.根据权利要求1所述的方法,所述特征类型包括长度,所述长度的特征包括以下至少一项:词长、句子长度,其中,所述词长是根据所述词语的长度、文本中所有词语的长度的均...

【专利技术属性】
技术研发人员:钱叶
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1