【技术实现步骤摘要】
词处理方法、装置、存储介质以及处理器
本专利技术涉及词处理领域,具体而言,涉及一种词处理方法、装置、存储介质以及处理器。
技术介绍
在泛在电力物联网的大背景下,95598客户服务系统作为泛在电力物联网应用的重要组成部分,登记了海量客户信息。当前主要依靠人工统计工单分析,产生效率不足等相关问题,无法对客户诉求转变进行风险提示。随着现有技术的不断发展,工单中出现了越来越多的未登陆词,如:煤改电等。如何有效处理具有未登陆词的文本信息,全面开展95598工单的多维度研究和智能分析,引入自然语言领域的文本挖掘等人工智能技术去实现客户服务领域的大数据研究,成为当前较为迫切的需求和问题。而现有技术中,通常采用隐马尔可夫模型、maximum-entropy,前者由于实体本身结构所具的复杂性,利用简单的特征函数往往无法涵盖所有特性;而后者模型中二值化特征只是记录特征出现与否,在文本分类中强调特征的强度,所以不是最优的。由于算法收敛速度较慢,导致最大熵模型的计算代价大,数据稀疏问题较为严重。针对上述现有技术中的词处理效果不佳的问 ...
【技术保护点】
1.一种词处理方法,其特征在于,包括:/n获取预先配置的专用词,其中,所述专用词为预定领域的专用词,所述专用词为多个,所述专用词由至少一个汉字组成;/n获取待处理的多条文本,其中,所述多条文本中的每条文本包括一个或多个句子;/n使用所述专用词对所述每条文本进行分词,其中,分词后的每条文本由一个或多个词组成;/n对进行分词之后得到的每条文本进行标记,其中,所述标记用于标记每个字在词中的位置;/n将训练数据输入到条件随机场CRF模型中进行训练,其中,所述训练数据包括多组数据,所述多组数据中的每一组数据均包括一条文本以及对该文本分词后进行标记后的结果,所述一条文本为所述多条文本中 ...
【技术特征摘要】
1.一种词处理方法,其特征在于,包括:
获取预先配置的专用词,其中,所述专用词为预定领域的专用词,所述专用词为多个,所述专用词由至少一个汉字组成;
获取待处理的多条文本,其中,所述多条文本中的每条文本包括一个或多个句子;
使用所述专用词对所述每条文本进行分词,其中,分词后的每条文本由一个或多个词组成;
对进行分词之后得到的每条文本进行标记,其中,所述标记用于标记每个字在词中的位置;
将训练数据输入到条件随机场CRF模型中进行训练,其中,所述训练数据包括多组数据,所述多组数据中的每一组数据均包括一条文本以及对该文本分词后进行标记后的结果,所述一条文本为所述多条文本中的之一;
将待测试文本输入到所述CRF模型中,得到标记后的待测试文本;
根据所述标记后的待测试文本得到所述待测试文本的分词结果,其中,所述分词结果中包括至少一个词。
2.根据权利要求1所述的方法,其特征在于,在根据所述标记后的待测试文本得到所述待测试文本的分词结果之后,所述方法还包括:
将所述分词结果中的每一个词与所述专用词进行比较,得到在所述专用词中没有的词;
将在所述专用词中没有的词添加到所述专用词中。
3.根据权利要求2所述的方法,其特征在于,将在所述专用词中没有出现的词添加到所述专用词包括:
得到预定数量的待测试文本的分词结果中的词,确定在所述专用词中没有出现的词在所述预定数量的待测试文本的分词结果中出现的次数;
在所述次数超过阈值的情况下,将在所述专用词中没有的词添加到所述专用词中。
4.根据权利要求3所述的方法,其特征在于,将在所述专用词中没有的词添加到所述专用词之后,所述方法还包括:
使用添加后的专用词再次对所述多条文本进行分词并标记;
将重新分词并标记后得到的结果作为训练数据再次对所述CRF模型进行训练。
5.一种词处理装置,其特征在于,包括:
第一获取模块,用于获取预先配置的专用词,其中,所述专用词为预定领域的专用词,所述专用词为多个,所述专用词由至少一个汉字组成...
【专利技术属性】
技术研发人员:王培祎,王艳松,胡彩娥,姚晓明,李香龙,王健,马龙飞,陆斯悦,张禄,徐蕙,
申请(专利权)人:国网北京市电力公司,国家电网有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。