【技术实现步骤摘要】
本申请涉及自然语言处理,尤其涉及一种文本分词方法、装置及电子设备、存储介质。
技术介绍
1、当前文档数据在数据存储中的占比越来越大,重要性也逐步增加,随着各产业的数字化快速发展,在企业经营及业务办理处理过程中,不断产生数量众多及种类繁多的证件、影像、档案、合同、音频、视频等文档数据,这些数据的存储格式多样,一般都是通过将文档数据文本化,通过倒排索引技术存储在文档数据库中。
2、当前流行的文档数据库有elasticsearch、apache solr、algolia、arangodb、meilisearch、spnix等,典型的系统架构中一般采用elasticsearch作为存储介质。文档数据库大量应用在搜索领域,对输入文本进行分词形成关键字,再将包含关键字的文档数据作为搜索结果。因此,在进行中文搜索时,分词的效果直接影响搜索的结果,分词中如产生过多的关键字或者不准确的关键字,对用户的期望产生重大影响,也会导致机器负载过量,耗能过高。
3、传统的中文分词技术在处理非结构化大数据时,由于数据量大、语言风格多样,容易出
...【技术保护点】
1.一种文本分词方法,其特征在于,所述方法包括:
2.根据权利要求1所述文本分词方法,其特征在于,所述获取待处理的中文文本数据包括:
3.根据权利要求2所述文本分词方法,其特征在于,所述加载预设分词插件包括:
4.根据权利要求1所述文本分词方法,其特征在于,所述根据所述预设分词插件的文件数据加载所述预设分词插件包括:
5.根据权利要求1所述文本分词方法,其特征在于,所述预设词典为单个词典实例,单个所述词典实例中包括常用词和特定命名实体,所述基于预设词典对所述待处理的中文文本数据进行分词,得到第一分词结果包括:
【技术特征摘要】
1.一种文本分词方法,其特征在于,所述方法包括:
2.根据权利要求1所述文本分词方法,其特征在于,所述获取待处理的中文文本数据包括:
3.根据权利要求2所述文本分词方法,其特征在于,所述加载预设分词插件包括:
4.根据权利要求1所述文本分词方法,其特征在于,所述根据所述预设分词插件的文件数据加载所述预设分词插件包括:
5.根据权利要求1所述文本分词方法,其特征在于,所述预设词典为单个词典实例,单个所述词典实例中包括常用词和特定命名实体,所述基于预设词典对所述待处理的中文文本数据进行分词,得到第一分词结果...
【专利技术属性】
技术研发人员:常乐,戚翯,刘鸿新,霍建军,吕彦华,
申请(专利权)人:中国邮政储蓄银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。