一种基于语义理解的信息提取方法技术

技术编号:27743523 阅读:16 留言:0更新日期:2021-03-19 13:37
本发明专利技术涉及一种基于语义理解的信息提取方法,包括:获取用户上传的文档,基于所述文档中的段落文字进行语义分析,从中获取段落文字的指向关键词,在所述文档的段落文字中定位寻找字母组合,从所述字母组合中提取所述文档的产品型号,根据所述指向关键词及产品型号,对文档进行重命名。本发明专利技术的方法用以保障集中文件管理时的命名规范一致,确保工作协同中得以准确查找文件,获取工作中需要的知识内容。

【技术实现步骤摘要】
一种基于语义理解的信息提取方法
本专利技术涉及一种基于语义理解的信息提取方法、装置、电子设备及计算机可读存储介质。
技术介绍
现有技术中,对大量的设备说明书进行集中文件管理时,文件的上传人员对文件命名有可能存在不准确或是不规范的因素,导致工作协同中,难以准确地查找文件,获取工作中需要的知识内容。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的基于语义理解的信息提取方法。依据本专利技术的一个方面,提供了一种基于语义理解的信息提取方法,包括:文档获取步骤,其获取用户上传的文档;关键词提取步骤,其基于所述文档中的段落文字进行语义分析,从中获取段落文字的指向关键词;型号提取步骤,其在所述文档的段落文字中定位寻找字母组合,从所述字母组合中提取所述文档的产品型号;重命名步骤,其根据所述指向关键词及产品型号,对文档进行重命名。优选地,在文档获取步骤中,对于用户上传的文档,先将文档的命名清空,按下载时间进行预命名。优选地,所述关键词提取步骤包括:对所述文档中的段落文字进行文本分词,并对分词后的每个词汇计算权重,基于所述权重提取所述指向关键词。优选地,所述文本分词的具体方式是:对段落文字中的每个词汇进行词条检索,在词库中找到相应匹配的所有词条,将各个词条以词网格形式进行表示,并在其中基于统计语言模型做路径搜索,找到最优路径,根据最优路径决定最优的切分结果。优选地,所述计算权重的具体方式是:对分词后的每个词汇以词频为度量,基于Tf-Idf为每个词汇计算一个权重。优选地,所述基于所述权重提取所述指向关键词,进一步包括:对权重超过设定阈值的词汇进行关键词提取,基于bidword和高频query建立多模式匹配树,利用多模式匹配树筛选出关键词作为所诉指向关键词。优选地,所述型号提取步骤包括:所述字母组合包括数字、字母和字符,对所述文档中的段落文字进行数字、字母和字符检索从而定位寻找字母组合,将字母组合与所确定的指向关键词进行释义匹配,将匹配成功的字母组合确定为所述产品型号。优选地,所述重命名步骤包括:根据所述指向关键词查询系统中的文档分类,在文档分类中无指向关键词对应类别的情况下,以指向关键词作为新类别创建文件夹,并将重命名后的文档自动存储至该文件夹下。依据本专利技术的另一个方面,提供了一种基于语义理解的信息提取装置,包括:文档获取模块,其获取用户上传的文档;关键词提取模块,其基于所述文档中的段落文字进行语义分析,从中获取段落文字的指向关键词;型号提取模块,其在所述文档的段落文字中定位寻找字母组合,从所述字母组合中提取所述文档的产品型号;重命名模块,其根据所述指向关键词及产品型号,对文档进行重命名。优选地,在文档获取模块中,对于用户上传的文档,先将文档的命名清空,按下载时间进行预命名。优选地,所述关键词提取模块包括:对所述文档中的段落文字进行文本分词,并对分词后的每个词汇计算权重,基于所述权重提取所述指向关键词。优选地,所述文本分词的具体方式是:对段落文字中的每个词汇进行词条检索,在词库中找到相应匹配的所有词条,将各个词条以词网格形式进行表示,并在其中基于统计语言模型做路径搜索,找到最优路径,根据最优路径决定最优的切分结果。优选地,所述计算权重的具体方式是:对分词后的每个词汇以词频为度量,基于Tf-Idf为每个词汇计算一个权重。优选地,所述基于所述权重提取所述指向关键词,进一步包括:对权重超过设定阈值的词汇进行关键词提取,基于bidword和高频query建立多模式匹配树,利用多模式匹配树筛选出关键词作为所诉指向关键词。优选地,所述型号提取模块包括:所述字母组合包括数字、字母和字符,对所述文档中的段落文字进行数字、字母和字符检索从而定位寻找字母组合,将字母组合与所确定的指向关键词进行释义匹配,将匹配成功的字母组合确定为所述产品型号。优选地,所述重命名模块包括:根据所述指向关键词查询系统中的文档分类,在文档分类中无指向关键词对应类别的情况下,以指向关键词作为新类别创建文件夹,并将重命名后的文档自动存储至该文件夹下。依据本专利技术的另一个方面,提供了一种电子设备,其中,该电子设备包括:处理器;以及,被安排成存储计算机可执行指令的存储器,可执行指令在被执行时使处理器执行上述的方法。依据本专利技术的另一个方面,提供了一种计算机可读存储介质,其中,计算机可读存储介质存储一个或多个程序,一个或多个程序当被处理器执行时,实现上述的方法。有益效果:本专利技术利用文档中的段落文字进行语义分析,自动获取段落文字的指向关键词,并在文档的段落文字中定位寻找字母组合,从字母组合中提取所述文档的产品型号,然后根据所述指向关键词及产品型号对文档进行重命名,以此保障集中文件管理时的命名规范一致,确保工作协同中得以准确查找文件,获取工作中需要的知识内容。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术一个实施例的基于语义理解的信息提取方法的流程示意图;图2示出了根据本专利技术一个实施例的基于语义理解的信息提取装置的结构示意图;图3示出了根据本专利技术一个实施例的电子设备的结构示意图;图4示出了根据本专利技术一个实施例的计算机可读存储介质的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1示出了根据本专利技术一个实施例的基于语义理解的信息提取方法的流程示意图。如图1所示,本专利技术实施例的基于语义理解的信息提取方法包括:步骤S11:获取用户上传的文档;具体地,从网上下载的有关电器说明书的资料,将资料导入到系统。步骤S12:基于所述文档中的段落文字进行语义分析,从中获取段落文字的指向关键词;具体地,获取电器说明书中的段落文字后,对段落文字中的每个词汇进行词条检索,从而在词库中找到相应匹配的所有词条,将各个词条以词网格(wordlattices)形式进行表示,并在其中基于n-gram统计语言模型做路径搜索,从而找到最优路径,根据最优路径决定最优的切分结果,自此完成对电器说明书中段落文字进行分词;对文本分词后,接下来本文档来自技高网...

【技术保护点】
1.一种基于语义理解的信息提取方法,其特征在于,包括:/n文档获取步骤,其获取用户上传的文档;/n关键词提取步骤,其基于所述文档中的段落文字进行语义分析,从中获取段落文字的指向关键词;/n型号提取步骤,其在所述文档的段落文字中定位寻找字母组合,从所述字母组合中提取所述文档的产品型号;/n重命名步骤,其根据所述指向关键词及产品型号,对文档进行重命名。/n

【技术特征摘要】
1.一种基于语义理解的信息提取方法,其特征在于,包括:
文档获取步骤,其获取用户上传的文档;
关键词提取步骤,其基于所述文档中的段落文字进行语义分析,从中获取段落文字的指向关键词;
型号提取步骤,其在所述文档的段落文字中定位寻找字母组合,从所述字母组合中提取所述文档的产品型号;
重命名步骤,其根据所述指向关键词及产品型号,对文档进行重命名。


2.根据权利要求1所述的方法,其特征在于:在文档获取步骤中,对于用户上传的文档,先将文档的命名清空,按下载时间进行预命名。


3.根据权利要求1所述的方法,其特征在于所述关键词提取步骤包括:对所述文档中的段落文字进行文本分词,并对分词后的每个词汇计算权重,基于所述权重提取所述指向关键词。


4.根据权利要求3所述的方法,其特征在于所述文本分词的具体方式是:对段落文字中的每个词汇进行词条检索,在词库中找到相应匹配的所有词条,将各个词条以词网格形式进行表示,并在其中基于统计语言模型做路径搜索,找到最优路径,根据最优路径决定最优的切分结果。


5.根据权利要求3或4所述的方法,其特征在于所述计算权重的具体方式是:对分词后的每个词汇以词频为度量,基于Tf-Idf为每个词汇计算一个权重。
...

【专利技术属性】
技术研发人员:梁慧冰
申请(专利权)人:广州市安固信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1