一种知识稀疏分布式编码方法及系统技术方案

技术编号:34604983 阅读:40 留言:0更新日期:2022-08-20 09:09
本发明专利技术提供一种知识稀疏分布式编码方法及系统。该方法包括:从数据集中获取待处理的文本数据;对所述文本数据进行切割,得到所述文本数据包含的所有句子;基于TF

【技术实现步骤摘要】
一种知识稀疏分布式编码方法及系统


[0001]本专利技术涉及人工智能
,具体涉及一种知识稀疏分布式编码方法及系统。另外,还涉及一种电子设备及处理器可读存储介质。

技术介绍

[0002]层级实时记忆(Hierarchical Temporal Memory,HTM)模型是对人脑处理机制的模仿,该模型能够将生物学与计算机科学进行结合,通过编程模拟人的学习和预测行为。其中HTM模型是一个基于记忆的系统,强调结合信息的时间特性与空间特性,无论待学习的数据之间有何联系,输入知识数据都为基于时间的序列。在处理信息时,如图2所示,主要经历4个步骤:编码器、空间池化、时序记忆和分类器。 HTM模型将输入知识数据使用稀疏离散表征(Sparse DistributedRepresentation,SDR),其具有向量、高维、二值和稀疏四大特点,其与人脑神经元处理信息的机制相似,目前HTM模型可以应用在行为异常检测、地理空间应用跟踪以及财务监控等场景。对于人脑而言,想要获取数据,自然是从人的感官获得。神经科学的研究表明感官会将接收到的信息转化成稀疏数据,这种数本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种知识稀疏分布式编码方法,其特征在于,包括:从数据集中获取待处理的文本数据;对所述文本数据进行切割,得到所述文本数据包含的所有句子;基于TF

IDF统计模型对所述句子中的单词进行编码,获得各个句子对应的高维向量;基于TSNE降维模型对所述各个句子对应的高维向量进行降维得到各个句子对应的低维向量,基于所述低维向量构建相应的语义空间;其中,所述低维向量为二维句子向量或者三维句子向量;基于所述语义空间对输入知识进行自然语言的稀疏分布式编码,输出相应的知识编码结果。2.根据权利要求1所述的知识稀疏分布式编码方法,其特征在于,所述基于TSNE降维模型对所述各个句子对应的高维向量进行降维得到各个句子对应的低维向量,基于所述低维向量构建相应的语义空间,具体包括:基于TSNE降维模型将所述各个句子对应的高维向量降维至低维向量,对所述低维向量进行放缩与取整,以实现将将所述低维向量按比例放入到预设的128*128的原始语义空间中,得到所述语义空间;并将所述语义空间存储至数据库;所述语义空间中包含句子在语义空间中的坐标以及句子的属性信息。3.根据权利要求1所述的知识稀疏分布式编码方法,其特征在于,在得到所述文本数据包含的所有句子之后,还包括:对所述句子中的所有单词进行统计并记录每个单词的出现次数,生成相应的词典。4.根据权利要求1所述的知识稀疏分布式编码方法,其特征在于,所述基于所述语义空间对输入知识进行自然语言的稀疏分布式编码,输出相应的知识编码结果,具体包括:获得待编码的原始输入知识;对所述原始输入知识进行预处理,并将预处理得到的输入知识与数据库中的每个句子进行对比匹配,若存在与所述输入知识包含的单词或短语相对应的目标句子,则读取所述目标句子在语义空间中的坐标,并在128*128的原始语义空间中相应的坐标位置对应的值标记为1,以实现基于所述语义空间对输入知识进行稀疏分布式编码,输出相应的知识编码结果。5.根据权利要求1所述的知识稀疏分布式编码方法,其特征在于,对所述文本数据进行切割,得到所述文本数据包含的所有句子,具体包括:对预处理后的所述文本数据进行切割,并对切割后得到的句子...

【专利技术属性】
技术研发人员:陈祖刚蔡匡盛李静李国庆
申请(专利权)人:中国科学院空天信息创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1