【技术实现步骤摘要】
短语字典实时生成方法、装置、电子设备及存储介质
本专利技术涉及人工智能中的大数据
,尤其涉及一种短语字典实时生成的方法、装置、电子设备及计算机可读存储介质。
技术介绍
短语词典用于记录某一领域中的专有名词,如金融保险行业的短语词典记录有保险、理财等的产品名称等专有词语,如尊享人生等。随着时间的推移,社会、经济等的发展,短语词典需要不断的进行生成及更新,传统的短语词典生成及更新是一个漫长的过程,通常需要一到二个月。尤其是在金融市场分析平台中,在将新的金融信息与现有的短语词典进行合并,重新对短语词典的文字符号进行处理和词形还原,会耗费大量的工期。另外,在金融市场分析市场上几乎没有实时有效更新的短语词典,这会导致金融市场行为分析平台的可靠性和有效性很低,不能获取最实时有效的数据。
技术实现思路
本专利技术提供一种短语字典实时生成的方法、装置、电子设备及计算机可读存储介质,其主要目的在于降低短语字典实时生成的时间,获取实时有效的短语文本。为实现上述目的,本专利技术提供的一种短语字典实时生成方法,包括 ...
【技术保护点】
1.一种短语字典实时生成方法,其特征在于,所述方法包括:/n获取实时缓存数据集,其中,所述实时缓存数据集为将按照预设规则爬取的实时数据集,传输至分布式消息队列中进行实时缓存后得到的数据集;/n提取所述实时缓存数据集中的短语文本,生成短语文本集;/n将所述短语文本集输入至预设分布式搜索引擎中进行预处理操作,得到目标短语文本集;/n接收待查询的短语文本,根据所述分布式搜索引擎中的目标短语文本集,查询所述待查询的短语文本的关联短语文本,并生成短语字典。/n
【技术特征摘要】
1.一种短语字典实时生成方法,其特征在于,所述方法包括:
获取实时缓存数据集,其中,所述实时缓存数据集为将按照预设规则爬取的实时数据集,传输至分布式消息队列中进行实时缓存后得到的数据集;
提取所述实时缓存数据集中的短语文本,生成短语文本集;
将所述短语文本集输入至预设分布式搜索引擎中进行预处理操作,得到目标短语文本集;
接收待查询的短语文本,根据所述分布式搜索引擎中的目标短语文本集,查询所述待查询的短语文本的关联短语文本,并生成短语字典。
2.如权利要求1所述的短语字典实时生成方法,其特征在于,所述提取所述实时缓存数据集中的短语文本,生成短语文本集包括:
读取所述分布式消息队列中的实时缓存数据集,建立数据过滤管道对读取的所述实时缓存数据进行数据过滤,得到目标实时缓存数据集;
对所述目标实时缓存数据集进行文本断句,得到短语文本数据集,对所述短语文本数据集进行编码,得到所述短语文本集。
3.如权利要求2所述的短语字典实时生成方法,其特征在于,所述对所述短语文本数据集进行编码是采用短语文本的json格式的编码方式。
4.如权利要求1所述的短语字典实时生成方法,其特征在于,所述预处理操作包括符号分割处理、词形还原、文字分析以及去除常用语。
5.如权利要求1至4中任意一项所述的短语字典实时生成方法,其特征在于,所述接收待查询的短语文本,根据所述分布式搜索引擎中的目标短语文本集,查询所述待查询的短语文本的关联短语文本,并生成短语字典,包括:
获取所述待查询的短语文本,将所述短语文本转换为文本索引;
将所述文本索引与所述分布式搜索引擎中的目标短语文本进行关联短语文本匹配,得到目标关联短语文本集;
利用正负情感单字典提取所述目标关联短语文本集中的正负情感计数;
根据所述正负情感计数,对所述目标短语文本集进行情感值计算,并将计算得到的情感值标记至对应的目标短语文本集中,得到所述短语字典。
6.如权利要求5所述的短语字典实时生成方法,其特征在于,所述利用正负情感单字典提取所述目标关联短语文本集中的正负情感计数,包括:
根据所述情感单字典查找所述目标关联短语文本集中目标关联短语文本的情感词、否定词以及程度副词;
通过遍历操作依次选择其中一个所述情感词,并判断所选择的情感词之前是否有否...
【专利技术属性】
技术研发人员:冼志海,
申请(专利权)人:深圳壹账通智能科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。