【技术实现步骤摘要】
本专利技术涉及文本提取,具体为一种基于词语相似关系的文本提取系统及提取方法。
技术介绍
1、随着信息时代的来临,人们对于获取信息提出了更高的要求,在海量的信息中,需要大量的人力资源去从信息中提取重要的信息,组成短小精悍的文本以供便于阅读。以体育赛事转播为例,国内外足球比赛每年约有三万场,其中只有不到30%的比赛有相关新闻,而大量的比赛仅有评论文本。当需要将评论文本转换成新闻文本给用户阅读时,则需要新闻工作者从评论文本中进行筛选和提炼从而获得新闻文本,这大大消耗了人力资源,增加了成本。
2、文本提取技术在标准知识图谱领域的应用越来越广泛,可以帮助标准知识图谱的管理者及时、高效地提取文本,实现标准知识图谱文本提取的调整。
3、目前,标准知识图谱具有文本信息量庞大、数据种类多样、信息密度大等特点,标准知识图谱管理文本提取方法存在较多的不确定因素,导致标准知识图谱管理的文本提取方法存在较大的不确定性。虽然已经专利技术了一些标准知识图谱管理文本提取方法,但是仍不能有效解决标准知识图谱文本提取方法的不确定问题。
/>技术本文档来自技高网...
【技术保护点】
1.一种基于词语相似关系的文本提取系统,包括文本预处理模块、构建词向量表示模块、计算词语相似度模块、关键词提取模块、文本提取模块和优化与调整模块,其特征在于:所述文本预处理模块包括特殊字符去除单元、转换为小写单元、分词单元、停用词去除单元、词干化或词形还原单元和标记化单元,所述特殊字符去除单元可以对文本中的特殊字符进行去除,所述转换为小写单元将文本中的所有字母转换为小写,以避免大小写带来的歧义,所述分词单元将文本分割成单词或短语的序列,形成词汇表,所述停用词去除单元将文本中的停用词去除,即对分析无意义的常见词汇,所述词干化或词形还原单元将词汇转换为其基本形式,以减少词
...【技术特征摘要】
1.一种基于词语相似关系的文本提取系统,包括文本预处理模块、构建词向量表示模块、计算词语相似度模块、关键词提取模块、文本提取模块和优化与调整模块,其特征在于:所述文本预处理模块包括特殊字符去除单元、转换为小写单元、分词单元、停用词去除单元、词干化或词形还原单元和标记化单元,所述特殊字符去除单元可以对文本中的特殊字符进行去除,所述转换为小写单元将文本中的所有字母转换为小写,以避免大小写带来的歧义,所述分词单元将文本分割成单词或短语的序列,形成词汇表,所述停用词去除单元将文本中的停用词去除,即对分析无意义的常见词汇,所述词干化或词形还原单元将词汇转换为其基本形式,以减少词汇的变形形式,所述标记化单元将文本转换为计算机可处理的数据结构。
2.根据权利要求1所述的一种基于词语相似关系的文本提取系统,其特征在于:所述构建词向量表示模块包括预训练词向量模型单元、加载词向量模型单元、获取词向量表示单元和向量化文本单元,所述预训练词向量模型单元将模型在大规模文本语料库上进行了训练,学习到了单词的语义信息,所述加载词向量模型单元将选择的预训练词向量模型加载到内存中,以便后续使用,所述获取词向量表示单元对于文本中的每个单词,从预训练的词向量模型中获取其对应的词向量表示,所述向量化文本单元将文本中的单词依次替换为它们对应的词向量表示,从而将整个文本表示为一个向量序列或矩阵。
3.根据权利要求1所述的一种基于词语相似关系的文本提取系统,其特征在于:所述计算词语相似度模块包括余弦相似度单元、欧几里得距离单元、曼哈顿距离单元、闵可夫斯基距离单元、皮尔逊相关系数单元和斯皮尔曼相关系数单元,所述余弦相似度单元使用余弦相似度衡量两个词向量之间的相似程度,所述欧几里得距离单元计算两个词向量之间的欧几里得距离,表示它们在空间中的直线距离,所述曼哈顿距离单元计算两个词向量之间的曼哈顿距离,表示它们在空间中...
【专利技术属性】
技术研发人员:董心灵,
申请(专利权)人:苏州汇钟灵科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。