适用于多用户自定义字典的中文分词词频方法及装置制造方法及图纸

技术编号：30313759 阅读：15 留言：0更新日期：2021-10-09 22:56

本发明专利技术公开了一种适用于多用户自定义字典的中文分词词频方法及装置，其中方法包括：初始化hanlp分词服务；采用Aho

全部详细技术资料下载

【技术实现步骤摘要】
适用于多用户自定义字典的中文分词词频方法及装置

[0001]本专利技术涉及中文分词
，具体涉及一种适用于多用户自定义字典的中文分词词频方法及装置。

技术介绍

[0002]目前，对于开源的中文分词器(如hanlp分词器、jieba分词器)提供的用户自定义字典的在线分词词频服务，其支持单用户自定义字典添加词条，但在启动的初始化阶段需要加载用户自定义字典，如果需要支持多个用户自定义字典的在线分词词频功能，就需要将每个用户自定义字典重新进行中文分词器的初始化操作，该过程耗费时间较长。
[0003]针对中文分词器提供多用户自定义字典的在线分词词频服务时，多次初始化操作耗费时间长的问题，目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术的主要目的在于提供一种适用于多用户自定义字典的中文分词词频方法及装置，以解决现有中文分词器提供多用户自定义字典的在线分词词频服务时需要多次初始化操作、耗费时间长的问题。
[0005]为了实现上述目的，本专利技术的第一方面提供了一种适用于多用户自定义字典的中文分词词频方法，包括：
[0006]初始化hanlp分词服务；
[0007]采用Aho
‑
Corasick算法，根据第一文本和多用户自定义字典生成各用户自定义字典词频结果；
[0008]根据第一文本和多用户自定义字典，通过hanlp分词服务生成第二文本分词词频结果；
[0009]合并所述各用户自定义字典词频结果和所述第二文本分词词频结果，得到最...

【技术保护点】

【技术特征摘要】
1.一种适用于多用户自定义字典的中文分词词频方法，其特征在于，包括：初始化hanlp分词服务；采用Aho
‑
Corasick算法，根据第一文本和多用户自定义字典生成各用户自定义字典词频结果；根据第一文本和多用户自定义字典，通过hanlp分词服务生成第二文本分词词频结果；合并所述各用户自定义字典词频结果和所述第二文本分词词频结果，得到最终中文分词词频结果。2.根据权利要求1所述的方法，其特征在于，所述采用Aho
‑
Corasick算法，根据第一文本和多用户自定义字典生成各用户自定义字典词频结果，包括：将第一文本和多用户自定义字典作为Aho
‑
Corasick算法的输入，输出各用户自定义字典对应的trie树结果；根据各用户自定义字典对应的trie树结果生成各用户自定义字典词频结果。3.根据权利要求2所述的方法，其特征在于，所述将第一文本和多用户自定义字典作为Aho
‑
Corasick算法的输入，输出各用户自定义字典对应的trie树结果，包括：将第一文本、用户自定义停用词和用户自定义字典作为Aho
‑
Corasick算法的输入，输出停用词trie树结果和字典trie树结果；根据字典trie树结果，生成用户自定义字典词频结果。4.根据权利要求1所述的方法，其特征在于，所述根据第一文本和多用户自定义字典，通过hanlp分词服务生成第二文本分词词频结果，包括：根据第一文本和各用户自定义字典对应的trie树结果生成第二文本；将所述第二文本通过hanlp分词服务，生成第二文本分词词频结果。5.根据权利要求4所述的方法，其特征在于，所述根据第一文本和各用户自定义字典对应的trie树结果生成第二文本，包括：合并停用词trie树结果和字典trie树结果，得到有序trie树结...

【专利技术属性】
技术研发人员：王平，潘成，赵鹏，
申请(专利权)人：上海众言网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人