【技术实现步骤摘要】
【技术保护点】
一种基于词出现间距的内在与外在模式熵差的关键词排序方法,其特征在于步骤如下:步骤(1)获取文本获取文本,文本由若干数目的句子组成;步骤(2)文本预处理步骤(2.1)去除所有的标点符号,将所有的字母转换为小写;文中的目录,词汇表,以及索引均从文本中移除;步骤(2.2)对于英文文本,基于简单空格进行分词;先去除停用词,英文的不同词形当成不同的词;统计出每一个词的词频m,以及全文总的词数量N;计算出每一个词的出现的概率p=m/N;步骤(2.3)对于中文文本,使用常用分词软件进行分词;使用通用分词算法对中文文本进行分词;统计出每一个词的词频m,以及全文总的词数量N;计算出每一个词的 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:杨震,司书勇,雷建军,范科峰,赖英旭,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。