文本关键信息的识别方法、电子装置及可读存储介质制造方法及图纸

技术编号：19177224 阅读：36 留言：0更新日期：2018-10-17 00:20

本发明专利技术涉及一种文本关键信息的识别方法、电子装置及可读存储介质，该方法包括：在收到待识别文本后，对收到的待识别文本利用预先确定的分词模型进行分词处理，得到所述待识别文本的各个分词；其中，所述预先确定的分词模型为预先通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型；基于所述待识别文本中各个分词的词频、位置及词跨度，并根据预设评分公式计算得到每个分词的评分，按评分从高到低的顺序对所述待识别文本中各个分词进行排序，提取出排序靠前的分词作为关键词，根据提取出的关键词获取所述待识别文本的关键信息。本发明专利技术能使用户快速准确地获取待识别文本中的关键信息。

Method for identifying key information of text, electronic device and readable storage medium

The invention relates to a text key information recognition method, an electronic device and a readable storage medium. The method comprises: after receiving the text to be recognized, the received text to be recognized is segmented by a pre-determined word segmentation model, and each word of the text to be recognized is obtained; wherein the pre-determined word is obtained. The word segmentation model is a long-term and short-term memory cyclic neural network model which is trained by using the preset number of sample sentences annotated by the sequential annotation method in advance; based on the word frequency, position and word span of each word in the text to be recognized, the score of each word is calculated according to the preset scoring formula, and the score is from 0 to 0. The order from high to low is to sort the words in the text to be recognized, and the word with the highest ranking is extracted as the key word, and the key information of the text to be recognized is obtained according to the extracted key words. The invention enables users to obtain key information quickly and accurately in the text to be recognized.

全部详细技术资料下载

【技术实现步骤摘要】
文本关键信息的识别方法、电子装置及可读存储介质
本专利技术涉及计算机
，尤其涉及一种文本关键信息的识别方法、电子装置及可读存储介质。
技术介绍
用户经常需要从各种文本中快速获取到关键内容如文本的核心观点，然而，一些文本例如证券研究报告内容繁多且主旨不够清晰，特别是对于长达十几页甚至更多的深度报告，需要花费较多的时间去理清分析师的逻辑及相应结论。这既对看报告的用户的专业能力有较高要求，又需要花费用户较长的工作时间，导致用户获取文本中关键内容的效率较低且准确率不高。
技术实现思路
本专利技术的目的在于提供一种文本关键信息的识别方法、电子装置及可读存储介质，旨在快速准确地获取文本中的关键信息。为实现上述目的，本专利技术提供一种电子装置，所述电子装置包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的文本关键信息的识别系统，所述文本关键信息的识别系统被所述处理器执行时实现如下步骤：在收到待识别文本后，对收到的待识别文本利用预先确定的分词模型进行分词处理，得到所述待识别文本的各个分词；其中，所述预先确定的分词模型为预先通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型；基于所述待识别文本中各个分词的词频、位置及词跨度，并根据预设评分公式计算得到每个分词的评分，按评分从高到低的顺序对所述待识别文本中各个分词进行排序，提取出排序靠前的分词作为关键词，根据提取出的关键词获取所述待识别文本的关键信息。优选地，所述预先确定的分词模型的训练过程如下：获取预设数量的样本语句，其中，所述样本语句中的词语为预设语料库中采用预设序列标注规则标注...

【技术保护点】
1.一种电子装置，其特征在于，所述电子装置包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的文本关键信息的识别系统，所述文本关键信息的识别系统被所述处理器执行时实现如下步骤：在收到待识别文本后，对收到的待识别文本利用预先确定的分词模型进行分词处理，得到所述待识别文本的各个分词；其中，所述预先确定的分词模型为预先通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型；基于所述待识别文本中各个分词的词频、位置及词跨度，并根据预设评分公式计算得到每个分词的评分，按评分从高到低的顺序对所述待识别文本中各个分词进行排序，提取出排序靠前的分词作为关键词，根据提取出的关键词获取所述待识别文本的关键信息。

【技术特征摘要】
1.一种电子装置，其特征在于，所述电子装置包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的文本关键信息的识别系统，所述文本关键信息的识别系统被所述处理器执行时实现如下步骤：在收到待识别文本后，对收到的待识别文本利用预先确定的分词模型进行分词处理，得到所述待识别文本的各个分词；其中，所述预先确定的分词模型为预先通过对采用序列标注法标注的预设数量样本语句进行训练得到的长短期记忆循环神经网络模型；基于所述待识别文本中各个分词的词频、位置及词跨度，并根据预设评分公式计算得到每个分词的评分，按评分从高到低的顺序对所述待识别文本中各个分词进行排序，提取出排序靠前的分词作为关键词，根据提取出的关键词获取所述待识别文本的关键信息。2.如权利要求1所述的电子装置，其特征在于，所述预先确定的分词模型的训练过程如下：获取预设数量的样本语句，其中，所述样本语句中的词语为预设语料库中采用预设序列标注规则标注好的词语；将所述样本语句经过word2vec模型词向量化后得到相应的样本向量信息；将预设数量的样本语句按照预设比例分为训练集和评估集；将所述训练集对应的样本向量信息送入长短期记忆循环神经网络模型进行模型训练，每隔预设时间，使用训练得到的模型对所述评估集的样本语句各个词语中每个字的标注进行识别，并将识别出的标注与该样本语句中采用预设序列标注规则的标注进行比对，以评估模型识别标注的误差；若训练得到的模型识别标注的误差出现发散，则调整预设的训练参数并重新训练，直至使得训练得到的模型识别标注的误差能够收敛；若训练得到的模型识别标注的误差收敛，则结束模型训练，将生成的模型作为训练好的所述预先确定的分词模型。3.如权利要求2所述的电子装置，其特征在于，所述预设序列标注规则为按照每个字在词语中的位置进行标注，标注类型包括：首字标注、中间字标注、尾字标注、单字标注。4.如权利要求1-3中任一项所述的电子装置，其特征在于，所述根据预设评分公式计算得到每个分词的评分包括：对所述待识别文本中的各个分词按照如下公式计算得到每个分词的评分P值：P＝a1*X1+a2*X2+a3*X3其中，X1为分词在所述待识别文本中出现频率的词频评分，a1为预设的词频权重；X2为分词在所述待识别文本中出现位置的位置评分，a2为预设的位置权重；X3为分词在所述待识别文本中的词跨度评分，a3为预设的词跨度权重。5.一种文本关键信息的识别方法，其特征在于，所述文本关键信息的识别方法包括：在收到待识别文本后，对收到的待识别文本利用预先确定的分词模型进行分词处理，得到所述待识别文本的各个分词；其中，所述预先确定的分词模型为预先...

【专利技术属性】
技术研发人员：李正洋，李海疆，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人