文本关键信息的识别方法、电子装置及可读存储介质制造方法及图纸

技术编号:19177224 阅读:36 留言:0更新日期:2018-10-17 00:20
本发明专利技术涉及一种文本关键信息的识别方法、电子装置及可读存储介质,该方法包括:在收到待识别文本后,对收到的待识别文本利用预先确定的分词模型进行分词处理,得到所述待识别文本的各个分词;其中,所述预先确定的分词模型为预先通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型;基于所述待识别文本中各个分词的词频、位置及词跨度,并根据预设评分公式计算得到每个分词的评分,按评分从高到低的顺序对所述待识别文本中各个分词进行排序,提取出排序靠前的分词作为关键词,根据提取出的关键词获取所述待识别文本的关键信息。本发明专利技术能使用户快速准确地获取待识别文本中的关键信息。

Method for identifying key information of text, electronic device and readable storage medium

The invention relates to a text key information recognition method, an electronic device and a readable storage medium. The method comprises: after receiving the text to be recognized, the received text to be recognized is segmented by a pre-determined word segmentation model, and each word of the text to be recognized is obtained; wherein the pre-determined word is obtained. The word segmentation model is a long-term and short-term memory cyclic neural network model which is trained by using the preset number of sample sentences annotated by the sequential annotation method in advance; based on the word frequency, position and word span of each word in the text to be recognized, the score of each word is calculated according to the preset scoring formula, and the score is from 0 to 0. The order from high to low is to sort the words in the text to be recognized, and the word with the highest ranking is extracted as the key word, and the key information of the text to be recognized is obtained according to the extracted key words. The invention enables users to obtain key information quickly and accurately in the text to be recognized.

【技术实现步骤摘要】
文本关键信息的识别方法、电子装置及可读存储介质
本专利技术涉及计算机
,尤其涉及一种文本关键信息的识别方法、电子装置及可读存储介质。
技术介绍
用户经常需要从各种文本中快速获取到关键内容如文本的核心观点,然而,一些文本例如证券研究报告内容繁多且主旨不够清晰,特别是对于长达十几页甚至更多的深度报告,需要花费较多的时间去理清分析师的逻辑及相应结论。这既对看报告的用户的专业能力有较高要求,又需要花费用户较长的工作时间,导致用户获取文本中关键内容的效率较低且准确率不高。
技术实现思路
本专利技术的目的在于提供一种文本关键信息的识别方法、电子装置及可读存储介质,旨在快速准确地获取文本中的关键信息。为实现上述目的,本专利技术提供一种电子装置,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的文本关键信息的识别系统,所述文本关键信息的识别系统被所述处理器执行时实现如下步骤:在收到待识别文本后,对收到的待识别文本利用预先确定的分词模型进行分词处理,得到所述待识别文本的各个分词;其中,所述预先确定的分词模型为预先通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型;基于所述待识别文本中各个分词的词频、位置及词跨度,并根据预设评分公式计算得到每个分词的评分,按评分从高到低的顺序对所述待识别文本中各个分词进行排序,提取出排序靠前的分词作为关键词,根据提取出的关键词获取所述待识别文本的关键信息。优选地,所述预先确定的分词模型的训练过程如下:获取预设数量的样本语句,其中,所述样本语句中的词语为预设语料库中采用预设序列标注规则标注好的词语;将所述样本语句经过word2vec模型词向量化后得到相应的样本向量信息;将预设数量的样本语句按照预设比例分为训练集和评估集;将所述训练集对应的样本向量信息送入长短期记忆循环神经网络模型进行模型训练,每隔预设时间,使用训练得到的模型对所述评估集的样本语句各个词语中每个字的标注进行识别,并将识别出的标注与该样本语句中采用预设序列标注规则的标注进行比对,以评估模型识别标注的误差;若训练得到的模型识别标注的误差出现发散,则调整预设的训练参数并重新训练,直至使得训练得到的模型识别标注的误差能够收敛;若训练得到的模型识别标注的误差收敛,则结束模型训练,将生成的模型作为训练好的所述预先确定的分词模型。优选地,所述预设序列标注规则为按照每个字在词语中的位置进行标注,标注类型包括:首字标注、中间字标注、尾字标注、单字标注。优选地,所述根据预设评分公式计算得到每个分词的评分包括:对所述待识别文本中的各个分词按照如下公式计算得到每个分词的评分P值:P=a1*X1+a2*X2+a3*X3其中,X1为分词在所述待识别文本中出现频率的词频评分,a1为预设的词频权重;X2为分词在所述待识别文本中出现位置的位置评分,a2为预设的位置权重;X3为分词在所述待识别文本中的词跨度评分,a3为预设的词跨度权重。此外,为实现上述目的,本专利技术还提供一种文本关键信息的识别方法,所述文本关键信息的识别方法包括:在收到待识别文本后,对收到的待识别文本利用预先确定的分词模型进行分词处理,得到所述待识别文本的各个分词;其中,所述预先确定的分词模型为预先通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型;基于所述待识别文本中各个分词的词频、位置及词跨度,并根据预设评分公式计算得到每个分词的评分,按评分从高到低的顺序对所述待识别文本中各个分词进行排序,提取出排序靠前的分词作为关键词,根据提取出的关键词获取所述待识别文本的关键信息。优选地,所述预先确定的分词模型的训练过程如下:获取预设数量的样本语句,其中,所述样本语句中的词语为预设语料库中采用预设序列标注规则标注好的词语;将所述样本语句经过word2vec模型词向量化后得到相应的样本向量信息;将预设数量的样本语句按照预设比例分为训练集和评估集;将所述训练集对应的样本向量信息送入长短期记忆循环神经网络模型进行模型训练,每隔预设时间,使用训练得到的模型对所述评估集的样本语句各个词语中每个字的标注进行识别,并将识别出的标注与该样本语句中采用预设序列标注规则的标注进行比对,以评估模型识别标注的误差;若训练得到的模型识别标注的误差出现发散,则调整预设的训练参数并重新训练,直至使得训练得到的模型识别标注的误差能够收敛;若训练得到的模型识别标注的误差收敛,则结束模型训练,将生成的模型作为训练好的所述预先确定的分词模型。优选地,所述预设序列标注规则为按照每个字在词语中的位置进行标注,标注类型包括:首字标注、中间字标注、尾字标注、单字标注。优选地,所述对收到的待识别文本利用预先确定的分词模型进行分词处理,得到所述待识别文本的各个分词包括:利用预先确定的分词模型识别出所述待识别文本中各个字的标注得到标注序列,并根据预设序列标注规则将所述待识别文本中各个字按标注序列还原成对应的分词。优选地,所述根据预设评分公式计算得到每个分词的评分包括:对所述待识别文本中的各个分词按照如下公式计算得到每个分词的评分P值:P=a1*X1+a2*X2+a3*X3其中,X1为分词在所述待识别文本中出现频率的词频评分,a1为预设的词频权重;X2为分词在所述待识别文本中出现位置的位置评分,a2为预设的位置权重;X3为分词在所述待识别文本中的词跨度评分,a3为预设的词跨度权重。进一步地,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有文本关键信息的识别系统,所述文本关键信息的识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的文本关键信息的识别方法的步骤。本专利技术提出的文本关键信息的识别方法、系统及可读存储介质,通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型来对收到的待识别文本进行分词,并基于所述待识别文本中各个分词的词频、位置及词跨度来利用预设评分公式计算得到每个分词的评分,对各个分词按评分高低进行排序,根据排序靠前的分词来获取所述待识别文本的关键信息。由于能利用训练好的长短期记忆循环神经网络模型对待识别文本进行自动分词,且能综合考虑各个分词的词频、位置及词跨度来提取出所述待识别文本中的关键信息,无需用户自身花费较多的时间去理清待识别文本的核心内容,能使用户快速准确地获取待识别文本中的关键信息。附图说明图1为本专利技术文本关键信息的识别系统10较佳实施例的运行环境示意图;图2为本专利技术文本关键信息的识别方法一实施例的流程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在本专利技术中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普本文档来自技高网...

【技术保护点】
1.一种电子装置,其特征在于,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的文本关键信息的识别系统,所述文本关键信息的识别系统被所述处理器执行时实现如下步骤:在收到待识别文本后,对收到的待识别文本利用预先确定的分词模型进行分词处理,得到所述待识别文本的各个分词;其中,所述预先确定的分词模型为预先通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型;基于所述待识别文本中各个分词的词频、位置及词跨度,并根据预设评分公式计算得到每个分词的评分,按评分从高到低的顺序对所述待识别文本中各个分词进行排序,提取出排序靠前的分词作为关键词,根据提取出的关键词获取所述待识别文本的关键信息。

【技术特征摘要】
1.一种电子装置,其特征在于,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的文本关键信息的识别系统,所述文本关键信息的识别系统被所述处理器执行时实现如下步骤:在收到待识别文本后,对收到的待识别文本利用预先确定的分词模型进行分词处理,得到所述待识别文本的各个分词;其中,所述预先确定的分词模型为预先通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型;基于所述待识别文本中各个分词的词频、位置及词跨度,并根据预设评分公式计算得到每个分词的评分,按评分从高到低的顺序对所述待识别文本中各个分词进行排序,提取出排序靠前的分词作为关键词,根据提取出的关键词获取所述待识别文本的关键信息。2.如权利要求1所述的电子装置,其特征在于,所述预先确定的分词模型的训练过程如下:获取预设数量的样本语句,其中,所述样本语句中的词语为预设语料库中采用预设序列标注规则标注好的词语;将所述样本语句经过word2vec模型词向量化后得到相应的样本向量信息;将预设数量的样本语句按照预设比例分为训练集和评估集;将所述训练集对应的样本向量信息送入长短期记忆循环神经网络模型进行模型训练,每隔预设时间,使用训练得到的模型对所述评估集的样本语句各个词语中每个字的标注进行识别,并将识别出的标注与该样本语句中采用预设序列标注规则的标注进行比对,以评估模型识别标注的误差;若训练得到的模型识别标注的误差出现发散,则调整预设的训练参数并重新训练,直至使得训练得到的模型识别标注的误差能够收敛;若训练得到的模型识别标注的误差收敛,则结束模型训练,将生成的模型作为训练好的所述预先确定的分词模型。3.如权利要求2所述的电子装置,其特征在于,所述预设序列标注规则为按照每个字在词语中的位置进行标注,标注类型包括:首字标注、中间字标注、尾字标注、单字标注。4.如权利要求1-3中任一项所述的电子装置,其特征在于,所述根据预设评分公式计算得到每个分词的评分包括:对所述待识别文本中的各个分词按照如下公式计算得到每个分词的评分P值:P=a1*X1+a2*X2+a3*X3其中,X1为分词在所述待识别文本中出现频率的词频评分,a1为预设的词频权重;X2为分词在所述待识别文本中出现位置的位置评分,a2为预设的位置权重;X3为分词在所述待识别文本中的词跨度评分,a3为预设的词跨度权重。5.一种文本关键信息的识别方法,其特征在于,所述文本关键信息的识别方法包括:在收到待识别文本后,对收到的待识别文本利用预先确定的分词模型进行分词处理,得到所述待识别文本的各个分词;其中,所述预先确定的分词模型为预先...

【专利技术属性】
技术研发人员:李正洋李海疆
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1