一种技术关键词的识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:22689103 阅读:17 留言:0更新日期:2019-11-30 03:41
本发明专利技术实施例公开了一种技术关键词的识别方法、装置、计算机设备和存储介质,该方法包括:接收文件,所述文件具有一个或多个页面;从所述页面中提取文本信息;根据产品技术对所述文本信息进行分词处理,获得词组;对所述词组进行语义分析,以确定实体词;识别用于描述产品技术的实体词,作为技术关键词。通过语义分析自动甄别描述产品、技术的关键词,在保证准确率的情况下,操作简便,大大降低了耗时。

A recognition method, device, computer equipment and storage medium for technical keywords

The embodiment of the invention discloses a recognition method, device, computer device and storage medium of technical keywords, the method includes: receiving a file with one or more pages; extracting text information from the page; segmenting the text information according to the product technology to obtain the phrase; semantic analysis of the phrase to determine the entity Words; identify entity words used to describe product technology as technical keywords. With the help of semantic analysis, keywords describing products and technologies can be identified automatically, which is easy to operate and time-consuming.

【技术实现步骤摘要】
一种技术关键词的识别方法、装置、计算机设备和存储介质
本专利技术实施例涉及自然语言处理的技术,尤其涉及一种技术关键词的识别方法、装置、计算机设备和存储介质。
技术介绍
在采购、交易展会、技术交流会议等场合,会有许多厂家在使用文件展示其新研发的产品、技术,并将这些文件分发给其他人员。通过在分析这些文件中的关键词,可以整理当前热点的产品、技术,以便用于产品研发、技术改进等。目前,人工收集文件后,手动甄别描述产品、技术的关键词,但是,这些文件中包含了许多无关的信息,导致手动甄别的过程较为繁琐,耗时较长。
技术实现思路
本专利技术实施例提供一种技术关键词的识别方法、装置、计算机设备和存储介质,以解决手动甄别描述产品、技术的关键词较为繁琐,耗时较长的问题。第一方面,本专利技术实施例提供了一种技术关键词的识别方法,包括:接收文件,所述文件具有一个或多个页面;从所述页面中提取文本信息;根据产品技术对所述文本信息进行分词处理,获得词组;对所述词组进行语义分析,以确定实体词;识别用于描述产品技术的实体词,作为技术关键词。可选地,所述根据产品技术对所述文本信息进行分词处理,获得词组,包括:确定科技词典,所述科技词典用于存储描述产品技术的关键词;使用所述词典对所述文本信息进行分词处理,获得词组。可选地,所述对所述词组进行语义分析,以确定实体词,包括:确定所述词组的语言类型;若所述语言类型为中文,则调用预设的汉语言处理包对所述词组进行依存句法分析,以确定实体词;若所述语言类型为英文,则调用预设的自然语言处理工具包中的语言模型接口对所述词组进行依存句法分析,以确定实体词。可选地,所述识别用于描述产品技术的实体词,作为技术关键词,包括:对所述实体词进行分类,获得类别;若所述类别为产品技术,则对所述实体词生成目标分数,所述目标分数与描述产品技术的概率正相关;基于所述目标分数确定用于描述产品技术的实体词,作为技术关键词。可选地,所述对所述实体词生成目标分数,包括:对所述实体词配置基础分数;基于所述实体词与科技词典的匹配度、与非科技词典的匹配度、在所述文本信息中所处的相对位置、长度对所述基础分数进行调整,获得目标分数;其中,所述科技词典用于存储描述产品技术的关键词,所述非科技词典用于存储描述产品技术之外的关键词。可选地,所述基于所述实体词与科技词典的匹配度、与非科技词典的匹配度、在所述文本信息中的位置、长度对所述基础分数进行调整,获得目标分数,包括:若所述实体词与科技词典中的关键词匹配,则在所述基础分数上增加指定的第一分数;若所述实体词与非科技词典中的关键词匹配,则在所述基础分数上减去指定的第一分数;确定第一分数段;确定所述实体词在所述文本信息中所处的第一相对位置;在所述第一分数段中取处于所述第一相对位置的分数,作为第三分数,以使所述目标分数与所述第一相对位置正相关;在所述基础分数上增加所述第三分数;确定第二分数段;以所有实体词的长度组成长度范围;确定所述实体词的长度在所述长度范围中所处的第二相对位置;在所述第一分数段中取处于所述第二相对位置的分数,作为第四分数,以使所述第四分数与所述第二相对位置正相关;在所述基础分数上增加所述第四分数。可选地,所述基于所述分数确定用于描述产品技术的实体词,作为技术关键词,包括:确定阈值;滤除分数低于所述阈值的目标分数;将值最高的n个目标分数所属的实体词,设置为描述产品技术的技术关键词。第二方面,本专利技术实施例还提供了一种技术关键词的识别装置,包括:文件接收模块,用于接收文件,所述文件具有一个或多个页面;文本信息提取模块,用于从所述页面中提取文本信息;分词处理模块,用于根据产品技术对所述文本信息进行分词处理,获得词组;语义分析模块,用于对所述词组进行语义分析,以确定实体词;科技关键词确定模块,用于识别用于描述产品技术的实体词,作为技术关键词。可选地,所述分词处理模块包括:科技词典确定子模块,用于确定科技词典,所述科技词典用于存储描述产品技术的关键词;词典分词子模块,用于使用所述词典对所述文本信息进行分词处理,获得词组。可选地,所述语义分析模块包括:语言类型确定子模块,用于确定所述词组的语言类型;第一实体词确定子模块,用于若所述语言类型为中文,则调用预设的汉语言处理包对所述词组进行依存句法分析,以确定实体词;第二实体词确定子模块,用于若所述语言类型为英文,则调用预设的自然语言处理工具包中的语言模型接口对所述词组进行依存句法分析,以确定实体词。可选地,所述科技关键词确定模块包括:分类子模块,用于对所述实体词进行分类,获得类别;目标分数生成子模块,用于若所述类别为产品技术,则对所述实体词生成目标分数,所述目标分数与描述产品技术的概率正相关;目标分数确定子模块,用于基于所述目标分数确定用于描述产品技术的实体词,作为技术关键词。可选地,所述目标分数生成子模块包括:基础分数配置单元,用于对所述实体词配置基础分数;基础分数调整单元,用于基于所述实体词与科技词典的匹配度、与非科技词典的匹配度、在所述文本信息中所处的相对位置、长度对所述基础分数进行调整,获得目标分数;其中,所述科技词典用于存储描述产品技术的关键词,所述非科技词典用于存储描述产品技术之外的关键词。可选地,所述基础分数调整单元包括:第一分数增加子单元,用于若所述实体词与科技词典中的关键词匹配,则在所述基础分数上增加指定的第一分数;第二分数减去子单元,用于若所述实体词与非科技词典中的关键词匹配,则在所述基础分数上减去指定的第一分数;第一分数段确定子单元,用于确定第一分数段;第一相对位置确定子单元,用于确定所述实体词在所述文本信息中所处的第一相对位置;第三分数计算子单元,用于在所述第一分数段中取处于所述第一相对位置的分数,作为第三分数,以使所述目标分数与所述第一相对位置正相关;第三分数增加子单元,用于在所述基础分数上增加所述第三分数;第二分数段确定子单元,用于确定第二分数段;长度范围组成子单元,用于以所有实体词的长度组成长度范围;第二相对位置确定子单元,用于确定所述实体词的长度在所述长度范围中所处的第二相对位置;第四分数计算子单元,用于在所述第一分数段中取处于所述第二相对位置的分数,作为第四分数,以使所述第四分数与所述第二相对位置正相关;第四分数增加子单元,用于在所述基础分数上增加所述第四分数。可选地,所述目标分数确定子模块包括:阈值确定单元,用于确定阈值;目标分数滤除单元,用于滤除分数低于所述阈值的目标本文档来自技高网...

【技术保护点】
1.一种技术关键词的识别方法,其特征在于,包括:/n接收文件,所述文件具有一个或多个页面;/n从所述页面中提取文本信息;/n根据产品技术对所述文本信息进行分词处理,获得词组;/n对所述词组进行语义分析,以确定实体词;/n识别用于描述产品技术的实体词,作为技术关键词。/n

【技术特征摘要】
1.一种技术关键词的识别方法,其特征在于,包括:
接收文件,所述文件具有一个或多个页面;
从所述页面中提取文本信息;
根据产品技术对所述文本信息进行分词处理,获得词组;
对所述词组进行语义分析,以确定实体词;
识别用于描述产品技术的实体词,作为技术关键词。


2.根据权利要求1所述的方法,其特征在于,所述根据产品技术对所述文本信息进行分词处理,获得词组,包括:
确定科技词典,所述科技词典用于存储描述产品技术的关键词;
使用所述词典对所述文本信息进行分词处理,获得词组。


3.根据权利要求1所述的方法,其特征在于,所述对所述词组进行语义分析,以确定实体词,包括:
确定所述词组的语言类型;
若所述语言类型为中文,则调用预设的汉语言处理包对所述词组进行依存句法分析,以确定实体词;
若所述语言类型为英文,则调用预设的自然语言处理工具包中的语言模型接口对所述词组进行依存句法分析,以确定实体词。


4.根据权利要求1-3任一所述的方法,其特征在于,所述识别用于描述产品技术的实体词,作为技术关键词,包括:
对所述实体词进行分类,获得类别;
若所述类别为产品技术,则对所述实体词生成目标分数,所述目标分数与描述产品技术的概率正相关;
基于所述目标分数确定用于描述产品技术的实体词,作为技术关键词。


5.根据权利要求4所述的方法,其特征在于,所述对所述实体词生成目标分数,包括:
对所述实体词配置基础分数;
基于所述实体词与科技词典的匹配度、与非科技词典的匹配度、在所述文本信息中所处的相对位置、长度对所述基础分数进行调整,获得目标分数;
其中,所述科技词典用于存储描述产品技术的关键词,所述非科技词典用于存储描述产品技术之外的关键词。


6.根据权利要求5所述的方法,其特征在于,所述基于所述实体词与科技词典的匹配度、与非科技词典的匹配度、在所述文本信息中的位置、长度对所述基础分数进行调整,获得目标分数,包括:...

【专利技术属性】
技术研发人员:黄劲纪炎明康阳
申请(专利权)人:盈盛智创科技广州有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1