一种基于词出现间距的内在与外在模式熵差的关键词排序方法技术

技术编号:9223489 阅读:196 留言:0更新日期:2013-10-04 17:31
本发明专利技术提出一种基于通过词出现间距的内在与外在模式的信息熵差进行关键词排序的方法,属于文字信息处理领域。本方法认为关键词的出现受到两个模式的影响:(1)内在模式,描述在一个话题中的关键词位置的统计特性;(2)外在模式,描述文本中话题簇出现的统计属性。真实文本上实验结果发现,一个词出现间距的内外模式和外在模式信息熵差越大,那么他是关键词的可能性也就越大。

【技术实现步骤摘要】

【技术保护点】
一种基于词出现间距的内在与外在模式熵差的关键词排序方法,其特征在于步骤如下:步骤(1)获取文本获取文本,文本由若干数目的句子组成;步骤(2)文本预处理步骤(2.1)去除所有的标点符号,将所有的字母转换为小写;文中的目录,词汇表,以及索引均从文本中移除;步骤(2.2)对于英文文本,基于简单空格进行分词;先去除停用词,英文的不同词形当成不同的词;统计出每一个词的词频m,以及全文总的词数量N;计算出每一个词的出现的概率p=m/N;步骤(2.3)对于中文文本,使用常用分词软件进行分词;使用通用分词算法对中文文本进行分词;统计出每一个词的词频m,以及全文总的词数量N;计算出每一个词的出现的概率p=m/N...

【技术特征摘要】

【专利技术属性】
技术研发人员:杨震司书勇雷建军范科峰赖英旭
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1