识别数据的方法和装置制造方法及图纸

技术编号：26650647 阅读：29 留言：0更新日期：2020-12-09 00:49

本发明专利技术公开了识别数据的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：对多条待识别数据进行分词，得到待识别词，以生成待识别词的词向量集合和词频次集合；分别从待识别词的词向量集合和词频次集合中匹配出目标待识别数据的词向量和词频次；其中，目标待识别数据为多条待识别数据中的任意一条；将目标待识别数据的词向量输入到预先训练的识别模型中，得到目标待识别数据的主题和情感；根据目标待识别数据的词频次、正面词语集合和负面词语集合得到目标待识别数据的情感倾向值。该实施方式提高了数据识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
识别数据的方法和装置
本专利技术涉及计算机
，尤其涉及一种识别数据的方法和装置。
技术介绍
现有识别数据的技术包括：无监督的贝叶斯模型、短文本主题模型和短文本情感主题模型。无监督的贝叶斯模型和短文本主题模型无法识别出数据的情感，短文本情感主题模型可以识别出数据的情感。在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：短文本情感主题模型是根据训练数据得到词对，基于词对得到模型，从而用模型进行识别。词对中的词可能不属于同一主题，也可能是情感极性相反的词，并且，根据词对只能识别出情感极性，无法确定情感程度。因而，词对的噪音使现有技术存在数据识别的准确性不高的问题。
技术实现思路
有鉴于此，本专利技术实施例提供一种识别数据的方法和装置，能够提高数据识别的准确性。为实现上述目的，根据本专利技术实施例的一个方面，提供了一种识别数据的方法。本专利技术实施例的识别数据的方法，包括：对多条待识别数据进行分词，得到待识别词，以生成所述待识别词的词向量集合和词频次集...

【技术保护点】
1.一种识别数据的方法，其特征在于，包括：/n对多条待识别数据进行分词，得到待识别词，以生成所述待识别词的词向量集合和词频次集合；/n分别从所述待识别词的词向量集合和词频次集合中匹配出目标待识别数据的词向量和词频次；其中，所述目标待识别数据为所述多条待识别数据中的任意一条；/n将所述目标待识别数据的词向量输入到预先训练的识别模型中，得到所述目标待识别数据的主题和情感；/n根据所述目标待识别数据的词频次、正面词语集合和负面词语集合得到所述目标待识别数据的情感倾向值。/n

【技术特征摘要】
1.一种识别数据的方法，其特征在于，包括：
对多条待识别数据进行分词，得到待识别词，以生成所述待识别词的词向量集合和词频次集合；
分别从所述待识别词的词向量集合和词频次集合中匹配出目标待识别数据的词向量和词频次；其中，所述目标待识别数据为所述多条待识别数据中的任意一条；
将所述目标待识别数据的词向量输入到预先训练的识别模型中，得到所述目标待识别数据的主题和情感；
根据所述目标待识别数据的词频次、正面词语集合和负面词语集合得到所述目标待识别数据的情感倾向值。

2.根据权利要求1所述的方法，其特征在于，根据所述目标待识别数据的词频次、正面词语集合和负面词语集合得到所述目标待识别数据的情感倾向值，包括：
根据所述目标待识别数据中每个词的词频次得到所述目标待识别数据的逆文本频率指数值；
统计所述目标待识别数据中，属于正面词语集合的词的第一数量，属于负面词语集合的词的第二数量；将所述第一数量与所述第二数量的差作为所述目标待识别数据的情感值；
将所述目标待识别数据的逆文本频率指数值和所述目标待识别数据的情感值的乘积作为所述目标待识别数据的情感倾向值。

3.根据权利要求2所述的方法，其特征在于，根据所述目标待识别数据中每个词的词频次得到所述目标待识别数据的逆文本频率指数值，包括：
对于所述目标待识别数据中每个词，对所述词的词频次的倒数进行取对数处理，得到的值作为所述词的逆文本频率指数值；
将所述目标待识别数据中每个词的逆文本频率指数值的和作为所述目标待识别数据的逆文本频率指数值。

4.根据权利要求1所述的方法，其特征在于，所述识别模型的训练方法包括：
对多条训练数据进行文本去重、机械词汇删除和短句删除处理，得到经处理的多条训练数据；
对所述经处理的多条训练数据进行分词，得到训练词；
根据所述训练词生成所述训练词的词向量集合；
根据预先设置的参数值、所述...

【专利技术属性】
技术研发人员：程翔，
申请(专利权)人：北京京东振世信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人