用于多媒体作战救援的文本特征提取方法技术

技术编号:38102722 阅读:10 留言:0更新日期:2023-07-06 09:22
本发明专利技术提供用于多媒体作战救援的文本特征提取方法,通过数据源输入文本特征提取模型中,进行数据采集,再进行数据转换,进行数据预处理,数据分析后输出提取到的文本特征;其中数据转换为通过数据转换工具完成关系型数据库与HDFS之间的数据存储转换;数据分析为对数据预处理过后的数据通过数据分析算法完成聚类分析。该方法能够针对多数据的多媒体作战救援在进行文本特征提取时,从摘要和关键词两个方面进行数据提取,在提取过程中按照各自的算法和流程进行自动获取,克服现有提取过程中自动摘要提取需要自然语言理解和生成技术支持,应用领域受限的问题,同时,能提高处理海量文本文件时,快速、精准获取关键词的计算力。精准获取关键词的计算力。精准获取关键词的计算力。

【技术实现步骤摘要】
用于多媒体作战救援的文本特征提取方法


[0001]本专利技术属于语言处理的
,特别是涉及用于多媒体作战救援的文本特征提取方法。

技术介绍

[0002]在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的问题提取出来,但是无论是对于长文本还是短文本,往往可以通过一些关键词窥探整个文本的主题思想。同时,不管是基于文本的推荐还是基于文本的搜索,对于文本关键词的依懒性很大,关键词提取的准确程度之间关系到系统或者搜索系统的最终效果。另外,在进行文本处理时,简洁、精炼内容过程的文本摘要,也是对文本特征提取时非常重要的一个环节,摘要问题的特点是输出的文本要比输入的文本少很多很多,但是往往目前在进行摘要提取时需要复杂的自然语言理解和生成技术支持,很大程度上,满足不了人们对摘要的需求。

技术实现思路

[0003]技术方案:为了解决上述的技术问题,本专利技术提供的用于多媒体作战救援的文本特征提取方法,具体为:通过数据源输入文本特征提取模型中,进行数据采集,再进行数据转换,进行数据预处理,数据分析后输出提取到的文本特征,包括但不限于高频词汇、关键词、摘要;其中所述数据源为作战数据资源池中获得的;所述数据采集时数据包括反恐作战数据、抢险救援数据、维稳处突数据;所述数据转换为通过数据转换工具完成关系型数据库与HDFS之间的数据存储转换;所述数据分析为对数据预处理过后的数据通过数据分析算法完成聚类分析。
[0004]作为改进,所述数据预处理包括:一是能够将存储在Mysql、Mongo DB数据库中的原始数据经过数据清洗处理后,转换为标准的数据格式,然后将其转换到HDFS文件系统中;二是能够通过中文分词、特征提取等技术手段将数据处理为特征数据,作为数据分析模块的数据源。
[0005]作为改进,文本特征为摘要时,提取的算法为抽取式摘要提取方法,算法的具体步骤为:通过摘要提取系统配置系统参数,在文档数据库内枚举配置路径下的所有文档,枚举到的文档路径存入队列,当队列空时结束提取;当队列不为空时,通过弹出的一个文档路径,进行读取,在AI模型及算法下构建的摘要提取模型,进行保存单个文档提取结构,并显示,返回至队列是否为空,如此循环,直至,队列为空,结束提取。
[0006]作为改进,文本特征为摘要时,将原文本拆分为句子,获得句子的集合,句子节点的更新公式为:其中w
ji
为句子S
i
和S
j
的权重,d是阻尼系数,ln(v
i
)为指向节点i的句子的集合,WS(v
i
)为第i个节点的重要性或相似度,定义
为:等式左边表示一个句子的权重,右侧求和表示每个相邻句子对本句子的贡献程度。
[0007]作为改进,文本特征为摘要时进行算法的具体过程为:(1)预处理:将文本分割成句子S1,S2……
S
m
,以句子构件图;(2)计算句子相似度:对句子进行分词、取停用词处理,计算两个句子之间的相似度,将计算好的句子相似度作为两个句子构成的边的权值;(3)句子权重:根据文本特征提取方法的权重公式,迭代传播权重计算各句子的得分;(4)抽取文摘句:得到的句子得分进行倒序排序,抽取重要度最高的N个句子作为候选文摘句;(5)形成文摘:根据字数或句子数要求,从候选文摘居中抽取句子组成文摘。
[0008]作为改进,文本特征为关键词时,提取的算法具体步骤为:通过关键词、高频词提取系统进行配置系统参数,在文档数据库内枚举配置路径下的所有文档,枚举到的文档路径存入队列,当队列空时结束提取;当队列不为空时,通过弹出的一个文档路径,进行读取,在关键词、高频词提取模型中,进行保存单个文档提取结构,并显示,返回至队列是否为空,如此循环,直至,队列为空,结束提取。
[0009]作为改进,文本特征为关键词时,是通过字词在文件中出现的次数或频率来判定重要性,包括词频TF、逆向文件频率IDF,所述词频TF为某一个给定的词语在文件中出现的次数,对于某一特定文件里的词语t
i
的权重tf表示为n
i,j
表示该词汇在文件d
j
中的出现次数;k为文档总数;所述逆向文件频率IDF为任一个词语的重要性的度量,表示为|D|表示语料库中的文件总数;{j:t
i
∈d
j
}表示包含词语ti的文件数目;逆向文件频率IDF的权重表示为
[0010]作为改进,文本特征为关键词时,使用算法提取关键词的具有过程为:(1)预处理:文本分割为单词,并过滤掉停用词,最终得到单词的集合C1,C2……
C
m
,以句子构件图;(2)统计每个词的词频;(3)计算TF

IDF值,计算各词语的得分;(4)提取关键词;得到的单词得分进行倒序排序,抽取重要度最高的N个单词作为候选关键词。
[0011]有益效果:本专利技术提出的,用于多媒体作战救援的文本特征提取方法,能够针对多数据的多媒体作战救援在进行文本特征提取时,从摘要和关键词两个方面进行数据提取,在提取过程中按照各自的算法和流程进行自动获取,克服了现有提取过程中自动摘要提取需要自然语言理解和生成技术支持,应用领域受限的问题,同时,能够提高处理海量文本文件时,快速、精准获取关键词的计算力。
附图说明
[0012]图1为本专利技术提取方法的原理示意图。
[0013]图2为本专利技术摘要提取算法的工作流程。
[0014]图3为本专利技术关键词提取算法的工作流程。
具体实施方式
[0015]下面结合实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。
[0016]用于多媒体作战救援的文本特征提取方法,具体为:通过数据源输入文本特征提取模型中,进行数据采集,再进行数据转换,进行数据预处理,数据分析后输出提取到的文本特征,包括但不限于高频词汇、关键词、摘要;其中所述数据源为作战数据资源池中获得的;所述数据采集时数据包括反恐作战数据、抢险救援数据、维稳处突数据;所述数据转换为通过数据转换工具完成关系型数据库与HDFS之间的数据存储转换;所述数据分析为对数据预处理过后的数据通过数据分析算法完成聚类分析。
[0017]所述数据预处理包括:一是能够将存储在Mysql、Mongo DB数据库中的原始数据经过数据清洗处理后,转换为标准的数据格式,然后将其转换到HDFS文件系统中;二是能够通过中文分词、特征提取等技术手段将数据处理为特征数据,作为数据分析模块的数据源。
[0018]文本特征为摘要时,本专利技术中采用提取的算法为抽取式摘要提取方法,算法的具体步骤为:通过摘要提取系统配置系统参数,在文档数据库内枚举配置路径下的所有文档,枚举到的文档路径存入队列,当队列空时结束提取;当队列不为空时,通过弹出的一个文档路径,进行读取,在AI模型及算法下构建的摘要提取模型,进行保存单个文档提取结构,并显示,返回至队列是否为空,如此循环,直至本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于多媒体作战救援的文本特征提取方法,其特征在于:通过数据源输入文本特征提取模型中,进行数据采集,再进行数据转换,进行数据预处理,数据分析后输出提取到的文本特征,包括但不限于高频词汇、关键词、摘要;其中所述数据源为作战数据资源池中获得的;所述数据采集时数据包括反恐作战数据、抢险救援数据、维稳处突数据;所述数据转换为通过数据转换工具完成关系型数据库与HDFS之间的数据存储转换;所述数据分析为对数据预处理过后的数据通过数据分析算法完成聚类分析。2.根据权利要求1所述用于多媒体作战救援的文本特征提取方法,其特征在于:所述数据预处理包括:一是能够将存储在Mysql、Mongo DB数据库中的原始数据经过数据清洗处理后,转换为标准的数据格式,然后将其转换到HDFS文件系统中;二是能够通过中文分词、特征提取等技术手段将数据处理为特征数据,作为数据分析模块的数据源。3.根据权利要求1所述用于多媒体作战救援的文本特征提取方法,其特征在于:文本特征为摘要时,提取的算法为抽取式摘要提取方法,算法的具体步骤为:通过摘要提取系统配置系统参数,在文档数据库内枚举配置路径下的所有文档,枚举到的文档路径存入队列,当队列空时结束提取;当队列不为空时,通过弹出的一个文档路径,进行读取,在AI模型及算法下构建的摘要提取模型,进行保存单个文档提取结构,并显示,返回至队列是否为空,如此循环,直至,队列为空,结束提取。4.根据权利要求1或3所述用于多媒体作战救援的文本特征提取方法,其特征在于:文本特征为摘要时,将原文本拆分为句子,获得句子的集合,句子节点的更新公式为:其中W
ij
为句子Si和Sj的权重,d是阻尼系数,ln(v
i
)为指向节点i的句子的集合,WS(v
i
)为第i个节点的重要性或相似度,定义为:等式左边表示一个句子的权重,右侧求和表示每个相邻句子对本句子的贡献程度。5.根据权利要求4所述用于多媒体作战救援的文本特征提取方法,其特征在于:文本特征为摘要时进行算法的具体过程为:(1)预处理:将文本分割成句子S1,S2
……
Sm,以句子构件图;(2)计算句子相似度:对句子进行分词、取停用词处...

【专利技术属性】
技术研发人员:朱利李辉刘立军崔翛龙张悦
申请(专利权)人:中国人民武装警察部队工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1