本发明专利技术实施例提供了一种词库管理方法、装置、电子设备和可读存储介质。所述方法包括:对第一文本数据进行分词提取处理,得到至少一个第一分词;确定第一分词的第一出现日期和第一权重;第一权重用于指示第一分词的生僻程度;基于第一分词和/或第一权重,确定第一分词的分词类型;分词类型包括新词和非新词;在第一分词的分词类型为新词的情况下,基于第一分词、第一出现日期和第一权重,对目标词库进行更新。本发明专利技术实施例提高了对目标词库进行更新的合理性和及时性,使得在基于目标词库进行目标事件的确定和分析过程中,可以提高确定目标事件的时效性和准确性。
【技术实现步骤摘要】
本专利技术属于自然语言处理,特别涉及一种词库管理方法、装置、电子设备和可读存储介质。
技术介绍
1、随着信息和科技的快速发展,各种各样的新事件层出不穷。如何基于新事件的对应的语言文本,准确及时地确定新事件并对新事件进行分析是预测新事件发展趋势的关键内容。新词发现作为自然语言处理基础算法之一,主要用于挖掘领域新词和构建领域词库等。
2、目前,新词发现技术多集中于对新事件对应的语言文本的分词合理性方面,对词库管理方面鲜有涉及。
3、然而,在词库管理手段不完善的情况下,往往会导致在新事件的确定和分析过程中存在时效性差、准确度低的问题。
技术实现思路
1、本专利技术提供一种词库管理方法、装置、电子设备和可读存储介质,以解决目前在目标事件确定和分析过程中存在的时效性差、准确度低的技术问题。
2、为了解决上述技术问题,本专利技术实施例提供了一种词库管理方法,所述方法包括:
3、对第一文本数据进行分词提取处理,得到至少一个第一分词;
4、确定所述第一分词的第一出现日期和第一权重;所述第一权重用于指示所述第一分词的生僻程度;
5、基于所述第一分词和/或所述第一权重,确定所述第一分词的分词类型;所述分词类型包括新词和非新词;
6、在所述第一分词的分词类型为新词的情况下,基于所述第一分词、所述第一出现日期和所述第一权重,对目标词库进行更新。
7、可选地,所述确定所述第一分词的第一出现日期和第一权重,包括:</p>8、将所述第一分词对应的第一文本数据的出现日期确定为第一出现日期;
9、根据所述第一出现日期和对目标词库进行更新的第一更新日期,确定第一时间间隔;所述第一时间间隔为所述第一更新日期与所述第一出现日期之间的时间间隔;
10、基于所述第一时间间隔和艾宾浩斯遗忘曲线,计算第一权重。
11、可选地,所述目标词库中包括第二分词和所述第二分词的第二出现日期和第二权重;所述基于所述第一分词和/或所述第一权重,确定所述第一分词的分词类型,包括:
12、将所述第一分词与所述目标词库中的所述第二分词进行匹配;
13、在所述目标词库中不存在与所述第一分词相匹配的第二分词的情况下,确定所述第一分词的分词类型为新词;
14、在所述目标词库中存在至少一个与所述第一分词相匹配的第二分词,且所述第一分词的第一权重大于或者等于预设阈值的情况下,确定所述第一分词的分词类型为新词。
15、可选地,所述在所述第一分词的分词类型为新词的情况下,基于所述第一分词、所述第一出现日期和所述第一权重,对目标词库进行更新,包括:
16、在所述目标词库中不存在与所述第一分词相匹配的第二分词的情况下,将所述第一分词、所述第一分词的第一出现日期和第一权重添加至目标词库;
17、在所述目标词库中存在至少一个与所述第一分词相匹配的第二分词,且所述第一权重大于或者等于预设阈值的情况下,将所述第二分词的第二出现日期更新为所述第一出现日期,并将所述第二分词的第二权重更新为所述第一权重。
18、可选地,所述目标词库中包括第二分词和所述第二分词的第二出现日期和第二权重;所述方法还包括:
19、按照预设更新周期,计算所述第二分词对应的第二时间间隔;所述第二时间间隔为对所述第二分词进行更新的第二更新日期与所述第二出现日期之间的时间间隔;
20、基于所述第二时间间隔和艾宾浩斯遗忘曲线,计算所述第二分词的第二权重;
21、在所述第二权重小于预设阈值的情况下,将所述第二权重对应的第二分词从目标词库移除。
22、可选地,所述对第一文本数据进行分词提取处理,得到至少一个第一分词,包括:
23、提取第一文本数据中的实体,并对所述实体进行归一化处理,得到归一化实体;
24、对所述第一文本数据中所述实体之外的非实体以及所述归一化实体进行分词,得到至少一个初始分词;
25、对所述初始分词进行过滤,得到至少一个第一分词。
26、可选地,所述方法还包括:
27、接收事件查询请求,所述事件查询请求中携带第一关键词;
28、基于所述目标词库确定所述第一关键词的分词类型;
29、在所述第一关键词的分词类型为新词的情况下,判断所述第一关键词是否为实体分词;
30、在所述第一关键词是实体分词的情况下,确定所述第一关键词对应的第一实体,并将所述第一实体确定为目标事件;
31、在所述第一关键词不是实体分词的情况下,将所述第一关键词确定为目标事件;
32、生成针对所述目标事件的提醒信息并展示。
33、为了解决上述技术问题,本专利技术实施例提供了一种词库管理装置,所述装置包括:
34、处理模块,用于对第一文本数据进行分词提取处理,得到至少一个第一分词;
35、第一确定模块,用于确定所述第一分词的第一出现日期和第一权重;所述第一权重用于指示所述第一分词的生僻程度;
36、第二确定模块,用于基于所述第一分词和/或所述第一权重,确定所述第一分词的分词类型;所述分词类型包括新词和非新词;
37、更新模块,用于在所述第一分词的分词类型为新词的情况下,基于所述第一分词、所述第一出现日期和所述第一权重,对目标词库进行更新。
38、为了解决上述技术问题,本专利技术实施例提供了一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的词库管理方法。
39、为了解决上述技术问题,本专利技术实施例提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述的词库管理方法。
40、本专利技术实施例包括以下优点:
41、本专利技术实施例提供的词库管理方法,通过对第一文本数据进行分词提取处理,得到第一分词,并基于第一分词和/或第一分词的第一权重确定第一分词的分词类型,在确定第一分词的分词类型为新词的情况下,再基于第一分词、第一分词的第一出现日期和第一权重,对目标词库进行更新。其中,第一分词的分词类型、第一出现日期和第一权重为对目标词库进行管理提供了的可靠依据,在对目标词库进行更新的过程中,以第一分词以及第一分词的第一出现日期和第一权重为更新依据,明确了目标词库的更新方向,提高了对目标词库进行更新的合理性和及时性,使得在基于目标词库进行目标事件确定和分析的过程中,可以提高确定目标事件的时效性和准确性。
本文档来自技高网...
【技术保护点】
1.一种词库管理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一分词的第一出现日期和第一权重,包括:
3.根据权利要求1所述的方法,其特征在于,所述目标词库中包括第二分词和所述第二分词的第二出现日期和第二权重;所述基于所述第一分词和/或所述第一权重,确定所述第一分词的分词类型,包括:
4.根据权利要求3所述的方法,其特征在于,所述在所述第一分词的分词类型为新词的情况下,基于所述第一分词、所述第一出现日期和所述第一权重,对目标词库进行更新,包括:
5.根据权利要求1所述的方法,其特征在于,所述目标词库中包括第二分词和所述第二分词的第二出现日期和第二权重;所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述对第一文本数据进行分词提取处理,得到至少一个第一分词,包括:
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
8.一种词库管理装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的词库管理方法。
10.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行权利要求1至7中任一项所述的词库管理方法。
...
【技术特征摘要】
1.一种词库管理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一分词的第一出现日期和第一权重,包括:
3.根据权利要求1所述的方法,其特征在于,所述目标词库中包括第二分词和所述第二分词的第二出现日期和第二权重;所述基于所述第一分词和/或所述第一权重,确定所述第一分词的分词类型,包括:
4.根据权利要求3所述的方法,其特征在于,所述在所述第一分词的分词类型为新词的情况下,基于所述第一分词、所述第一出现日期和所述第一权重,对目标词库进行更新,包括:
5.根据权利要求1所述的方法,其特征在于,所述目标词库中包括第二分词和所述第二分词的第二出现日期...
【专利技术属性】
技术研发人员:周梦,邢启洲,李健,陈明,武卫东,
申请(专利权)人:北京捷通华声科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。