一种电力领域专业词汇库生成方法、系统、终端及介质技术方案

技术编号:39331521 阅读:21 留言:0更新日期:2023-11-12 16:07
本发明专利技术涉及电力领域专业词汇生成领域,具体公开一种电力领域专业词汇库生成方法、系统、终端及介质,获取电力文本数据;使用若干电力领域专业词汇抽取算法分别对电力文本数据进行处理,获得各自的专业词汇统计表;对各个专业词汇统计表中的专业词汇依次进行比对,筛选相同专业词汇和差异专业词汇;将相同专业词汇添加到专业词汇文本库;对差异专业词汇进行验证,筛选出保留专业词汇和删除专业词汇,将保留专业词汇添加到专业词汇文本库构成最终的专业词汇文本库,将删除专业词汇进行删除操作。本发明专利技术提高提供给用户的专业词汇的有效性、准确性和全面性。准确性和全面性。准确性和全面性。

【技术实现步骤摘要】
一种电力领域专业词汇库生成方法、系统、终端及介质


[0001]本专利技术涉及电力领域专业词汇生成领域,具体涉及一种电力领域专业词汇库生成方法、系统、终端及介质。

技术介绍

[0002]输入法是公司员工日常办公必备软件之一,输入法的出词速度和准确率影响用户的写作效率,当前各公司员工办公所用输入法多为互联网上的公共版本,只能提供基础上的出词功能,针对电力专有名词的等出词效果不佳。现有输入法一般支持用户词库导入,用户可导入自己的词汇,在使用输入法时即可更快的导出用户词汇。
[0003]在电力领域有较多的专业词汇,用户可根据需要设置自己的电力领域专业词汇库导入到输入法,以提高办公效率。然而,如果每个用户自己制作专业词汇库,则难免会出现较明显的漏词现象。
[0004]为形成较全面的电力领域专业词汇库,当前有较多的电力领域专业词汇抽取算法,可对电力文本数据进行分析,自动抽取的电力领域专业词汇。当前的电力领域专业词汇抽取算法包括监督模型算法、聚类算法、混合模型和聚类算法、统计算法等。然而,仅使用单一的电力领域专业词汇抽取算法进行电力文本数据进本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种电力领域专业词汇库生成方法,其特征在于,包括以下步骤:获取电力文本数据;使用若干电力领域专业词汇抽取算法分别对电力文本数据进行处理,获得各自的专业词汇统计表;对各个专业词汇统计表中的专业词汇依次进行比对,筛选相同专业词汇和差异专业词汇;将相同专业词汇添加到专业词汇文本库;对差异专业词汇进行验证,筛选出保留专业词汇和删除专业词汇,将保留专业词汇添加到专业词汇文本库构成最终的专业词汇文本库,将删除专业词汇进行删除操作。2.根据权利要求1所述的电力领域专业词汇库生成方法,其特征在于,使用若干电力领域专业词汇抽取算法分别对电力文本数据进行处理,获得各自的专业词汇统计表,具体包括:将电力文本数据传送到各个电力领域专业词汇抽取算法模块,触发各个电力领域专业词汇抽取算法针对电力文本数据进行电力词汇抽取;电力领域专业词汇抽取算法将抽取的专业词汇形成专业词汇统计表,并对专业词汇统计表进行命名,命名中包含算法标识。3.根据权利要求2所述的电力领域专业词汇库生成方法,其特征在于,对各个专业词汇统计表中的专业词汇依次进行比对,筛选相同专业词汇和差异专业词汇,具体包括以下步骤:对专业词汇统计表中的专业词汇根据单词个数和首字母进行排序;将单词个数相同的专业词汇组成一个数组,每个专业词汇统计表形成若干数组;对每个专业词汇统计表的相同单词个数的数组进行比对,筛选出各个数组的相同专业词汇和差异专业词汇;将所有数组的相同专业词汇添加到相同专业词汇表,将所有数组的差异专业词汇添加到差异专业词汇表。4.根据权利要求3所述的电力领域专业词汇库生成方法,其特征在于,对差异专业词汇进行验证,筛选出保留专业词汇和删除专业词汇,具体包括:记录差异专业词汇出现次数;若出现次数超过算法数量的一半,则将差异专业词汇标记为保留专业词汇;否则,将差异专业词汇...

【专利技术属性】
技术研发人员:马泉泉黄传启张成铎徐胜朋常得琳路嫣茹王文宗张凌宇刘鹏升张剑张猛邵艳刘文钊解飞赵大香宋伊敏亓文哲崔雯迪王刚王通高延涛康天宇黄英姿梁斌陶明峰樊斌李丽
申请(专利权)人:国网山东省电力公司淄博供电公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1