当前位置: 首页 > 专利查询>韩真专利>正文

一种表征文档特征的词频结构算子及其算子的计算方法技术

技术编号:20655175 阅读:53 留言:0更新日期:2019-03-23 06:51
本发明专利技术涉及到程序设计技术领域,尤其涉及一种表征文档特征的词频结构算子及其算子的计算方法。该表征文档特征的词频结构算子及其算子的计算方法的优点是:一种精简快速的结构。通过Sample结构,可以通过较少数据表达一个篇章的统计风格和语义空间,然后进入NLP处理的下一个阶段。占用空间相对较短。生成快速。序列化方便。无“无限维空间”的顾虑;具有优秀的算子性质;连接算法和差分算法作为特殊算子算法;形成多分辨率无监督表达。支撑多分辨率文本表达。支撑篇章行文风格分析,意向判断,主题分析。代表性的例子就是difft算子和ridge算子。支撑机器学习算法。

【技术实现步骤摘要】
一种表征文档特征的词频结构算子及其算子的计算方法
本专利技术涉及到程序设计
,尤其涉及一种表征文档特征的词频结构算子及其算子的计算方法。
技术介绍
自然语言处理NLP技术方兴未艾。如何表达段落,篇章的特征和结构,成为NLP的基本步骤。目前已有的表示方法有词存在表示法(one-hot),矩阵表示法,反向索引表示法,ngram表示法,全词频表示法,TFIDF表示法,词向量/篇章向量表示法等。我们通过深入研究细心设计,设计了一种精巧的词频结构。它不仅能够表达段落,篇章的特征和结构,而且具有优秀的欧式空间向量性质,具备支撑算式计算的算子操作。这种词频结构可以作为各类中级高级NLP应用的基础结构,为NLP,篇章分析,篇章表示,主题提取,知识图谱构建,NLP深度学习算法,检索系统构建,知识提取提供一种坚实的统计基础结构。Sample结构是对于相对较长篇章结构(20字或以上至无限,典型结构在100字到1W字之间)的一种统计采样表达方法。通过Sample结构,可以通过较少数据表达一个篇章的统计风格和语义空间,然后进入NLP处理的下一个阶段。更重要的是,两个或多个Sample结构之间可以进行任意本文档来自技高网...

【技术保护点】
1.一种表征文档特征的词频结构算子及其算子的计算方法,其特征在于其步骤为:1.分词,利用分词算法将原有文本text划分为词的数组arr;2.词包扩展/关键词筛选/重要结构筛选,用来将词组更加的扩展化,或者收敛化,以符合应用的需求;仍然置入arr;3.统计,包括: a. 设置一个stats结构,用以保存word‑ { count: 0 }键值对;. 设置W = 0;b. 对于arr的每个对象itemc. 取s = stats[item.word],如无生成,将s.count = s.count +1, 将W = W + 1d. 对于stats的每个对象s,进行s.count = s.count ...

【技术特征摘要】
1.一种表征文档特征的词频结构算子及其算子的计算方法,其特征在于其步骤为:1.分词,利用分词算法将原有文本text划分为词的数组arr;2.词包扩展/关键词筛选/重要结构筛选,用来将词组更加的扩展化,或者收敛化,以符合应用的需求;仍然置入arr;3.统计,包括:a.设置一个stats结构,用以保存word-{count:0}键值对;.设置W=0;b.对于arr的每个对象itemc.取s=stats[item.word],如无生成,将s.count=s.count+1,将W=W+1d.对于stats的每个对象s...

【专利技术属性】
技术研发人员:韩真
申请(专利权)人:韩真
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1