文本分词方法、装置及电子设备、存储介质制造方法及图纸

技术编号：40749139 阅读：19 留言：0更新日期：2024-03-25 20:05

本申请公开了一种文本分词方法、装置及电子设备、存储介质，该方法包括：获取待处理的中文文本数据；基于预设词典对所述待处理的中文文本数据进行分词，得到第一分词结果，所述第一分词结果已分词单词和未分词片段；利用预设分词模型对所述未分词片段进行分词，得到第二分词结果；根据所述第一分词结果和所述第二分词结果确定最终的文本分词结果。本申请实施例的文本分词方法简化了传统的分词流程，结合预设词典和预设分词模型对中文文本数据进行分词处理，提高了非结构化数据处理场景下的文本处理效率，且降低了内存占用。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及自然语言处理，尤其涉及一种文本分词方法、装置及电子设备、存储介质。

技术介绍

1、当前文档数据在数据存储中的占比越来越大，重要性也逐步增加，随着各产业的数字化快速发展，在企业经营及业务办理处理过程中，不断产生数量众多及种类繁多的证件、影像、档案、合同、音频、视频等文档数据，这些数据的存储格式多样，一般都是通过将文档数据文本化，通过倒排索引技术存储在文档数据库中。

2、当前流行的文档数据库有elasticsearch、apache solr、algolia、arangodb、meilisearch、spnix等，典型的系统架构中一般采用elasticsearch作为存储介质。文档数据库大量应用在搜索领域，对输入文本进行分词形成关键字，再将包含关键字的文档数据作为搜索结果。因此，在进行中文搜索时，分词的效果直接影响搜索的结果，分词中如产生过多的关键字或者不准确的关键字，对用户的期望产生重大影响，也会导致机器负载过量，耗能过高。

3、传统的中文分词技术在处理非结构化大数据时，由于数据量大、语言风格多样，容易出...

【技术保护点】

1.一种文本分词方法，其特征在于，所述方法包括：

2.根据权利要求1所述文本分词方法，其特征在于，所述获取待处理的中文文本数据包括：

3.根据权利要求2所述文本分词方法，其特征在于，所述加载预设分词插件包括：

4.根据权利要求1所述文本分词方法，其特征在于，所述根据所述预设分词插件的文件数据加载所述预设分词插件包括：

5.根据权利要求1所述文本分词方法，其特征在于，所述预设词典为单个词典实例，单个所述词典实例中包括常用词和特定命名实体，所述基于预设词典对所述待处理的中文文本数据进行分词，得到第一分词结果包括：