基于大数据与小数据相关分析实现幽默的方法和系统技术方案

技术编号：16456495 阅读：52 留言：0更新日期：2017-10-25 20:52

本发明专利技术公开了一种基于大数据与小数据相关分析实现幽默的方法及系统，所述犯法包括：获取用户的数据；从用户的数据中提取部分数据作为第一小数据，再提取部分数据作为第二小数据；获取大数据；从大数据中分别获取与第一小数据、第二小数据有关的数据，进行清洗后，分别作为第一相关数据集和第二相关数据集；从第一相关数据集中挖掘正相关语句，并将正相关语句及其正相关度存入正相关语句集合；从第二相关数据集中挖掘负相关语句，并将负相关语句及其负相关度存入负相关语句集合；根据正相关语句集合和负相关语句集合，获取幽默语句集合。本发明专利技术通过机器人从大数据中获取能产生幽默感的语句，来提高机器人的幽默程度和幽默水平。

Method and system for realizing humor based on correlation between big data and small data

The invention discloses a correlation analysis method and system for realizing the large and small humor data based on the data of the crime includes: obtaining the user data; data extraction as the first small data from the user data, then extract data as part of the second data acquisition; data acquisition; data and the first data respectively. Second, relevant data from large data, cleaning, respectively, as the first data set and second data sets; mining positive statements from the first related data set, and the positive correlation and positive correlation degree in the statement is a collection of statements; mining negative statements from second related data set, and the negative sentence and its negative correlation to negative statement collection; collection of statements based on the positive correlation and negative correlation to obtain humorous statement collection, a collection of statements. The invention improves the humor level and humor level of the robot by obtaining a humorous speech from the big data.

全部详细技术资料下载

【技术实现步骤摘要】
基于大数据与小数据相关分析实现幽默的方法和系统
本专利技术涉及一种机器人幽默感产生方法和系统，尤其是一种基于大数据与小数据相关分析实现幽默的方法和系统，属于人工智能

技术介绍
随着机器人技术的快速发展，用户对机器人功能的要求也越来越高，幽默感是智慧机器人的最重要内容之一。现有机器人在与用户对话时，都是通过查询幽默知识库来获取幽默语句或幽默成分，由于幽默知识库中幽默语句或幽默成分数量有限，从而导致幽默程度和幽默水平低。
技术实现思路
本专利技术的目的是为了解决上述现有技术的缺陷，提供了一种基于大数据与小数据相关分析实现幽默的方法，该方法通过机器人从大数据中获取能产生幽默感的语句，来提高机器人的幽默程度和幽默水平。本专利技术的另一目的在于提供一种基于大数据正负统一相关的幽默语句获取系统。本专利技术的目的可以通过采取如下技术方案达到：基于大数据与小数据相关分析实现幽默的方法，所述方法应用于机器人中，包括：获取用户的数据；从用户的数据中提取部分数据作为第一小数据，再提取部分数据作为第二小数据；获取大数据；从大数据中分别获取与第一小数据、第二小数据有关的数据，进行清洗...
基于大数据与小数据相关分析实现幽默的方法和系统

【技术保护点】
基于大数据与小数据相关分析实现幽默的方法，其特征在于：所述方法应用于机器人中，包括：获取用户的数据；从用户的数据中提取部分数据作为第一小数据，再提取部分数据作为第二小数据；获取大数据；从大数据中分别获取与第一小数据、第二小数据有关的数据，进行清洗后，分别作为第一相关数据集和第二相关数据集；从第一相关数据集中挖掘正相关语句，并将正相关语句及其正相关度存入正相关语句集合；从第二相关数据集中挖掘负相关语句，并将负相关语句及其负相关度存入负相关语句集合；根据正相关语句集合和负相关语句集合，获取幽默语句集合。

【技术特征摘要】
1.基于大数据与小数据相关分析实现幽默的方法，其特征在于：所述方法应用于机器人中，包括：获取用户的数据；从用户的数据中提取部分数据作为第一小数据，再提取部分数据作为第二小数据；获取大数据；从大数据中分别获取与第一小数据、第二小数据有关的数据，进行清洗后，分别作为第一相关数据集和第二相关数据集；从第一相关数据集中挖掘正相关语句，并将正相关语句及其正相关度存入正相关语句集合；从第二相关数据集中挖掘负相关语句，并将负相关语句及其负相关度存入负相关语句集合；根据正相关语句集合和负相关语句集合，获取幽默语句集合。2.根据权利要求1所述的基于大数据与小数据相关分析实现幽默的方法，其特征在于：所述从大数据中分别获取与第一小数据、第二小数据有关的数据，进行清洗后，分别作为第一相关数据集和第二相关数据集，具体包括：获取大数据中所有语句与第一小数据的匹配度，以及与第二小数据的匹配度；其中，语句指的是有一个句号结束的语句，大数据的某语句与小数据的匹配度指的是小数据在该语句中出现的字的个数除以小数据中字的个数；判断大数据中所有语句与第一小数据的匹配度是否大于预设匹配度阈值，以及与第二小数据的匹配度是否大于预设匹配度阈值；获取与第一小数据的匹配度大于预设匹配度阈值的语句，以及与第二小数据的匹配度大于预设匹配度阈值的语句；将与第一小数据匹配度大于预设匹配度阈值的语句中出现第一小数据中关键词的语句进行标记，以及将与第二小数据匹配度大于预设匹配度阈值的语句中出现第二小数据中关键词的语句进行标记；当与第一小数据匹配度大于预设匹配度阈值的语句、与第二小数据的匹配度大于预设匹配度阈值的语句中的某语句及其上句或下句都未被标记时，将该语句删除；或当与第一小数据匹配度大于预设匹配度阈值的语句、与第二小数据的匹配度大于预设匹配度阈值的语句中的某语句未被标记时，将该语句删除；将与第一小数据匹配度大于预设匹配度阈值的语句中未被删除的语句作为第一相关数据集，以及与第二小数据匹配度大于预设匹配度阈值的语句中未被删除的语句作为第二相关数据集。3.根据权利要求1所述的基于大数据与小数据相关分析实现幽默的方法，其特征在于：所述从第一相关数据集中挖掘正相关语句，并将正相关语句及其正相关度存入正相关语句集合，具体包括：获取第一相关数据集中所有语句与第一小数据的正相关度；判断第一相关数据集中所有语句与第一小数据的正相关度是否大于预设正相关度阈值；将与第一小数据的正相关度大于预设正相关度阈值的语句判定为正相关语句，并将正相关语句及其正相关度存入正相关语句集合；所述从第二相关数据集中挖掘负相关语句，并将负相关语句及其负相关度存入负相关语句集合，具体包括：获取第二相关数据集中所有语句与第二小数据的负相关度；判断第二相关数据集中所有语句与第二小数据的负相关度是否大于预设负相关度阈值；将与第二小数据的负相关度大于预设负相关度阈值的语句判定为负相关语句，并将负相关语句及其负相关度存入负相关语句集合。4.根据权利要求3所述的基于大数据与小数据相关分析实现幽默的方法，其特征在于：所述获取第一相关数据集中所有语句与第一小数据的正相关度，具体包括：获取第一小数据在大数据中相似语句的数量，作为第一数量；统计第一相关数据集中每个数据在大数据中相似数据的数量，作为该个数据的第二数量；统计该个数据与第一小数据进行合并后得到的数据在大数据中相似数据的数量，作为该个数据的第三数量；根据第一数量、该个数据的第二数量和第三数量，计算该个数据的正相关度；其中，所述该个数据的正相关度，具体计算公式为：该个数据的第三数量/((第一数量×该个数据的第二数量)1/2)；所述获取第二相关数据集中所有语句与第二小数据的负相关度，具体包括：获取第一小数据在大数据中相似语句的数量，作为第四数量；统计第二相关数据集中每个数据在大数据中相似数据的数量，作为该个数据的第五数量；统计该个数据与第二小数据进行合并后得到的数据在大数据中相似数据的数量，作为该个数据的第六数量；根据第四数量、该个数据的第五数量和第六数量，计算该个数据的负相关度；其中，所述该个数据的负相关度，具体计算公式为：1-该个数据的第六数量/((第四数量×该个数据的第五数量)1/2)。5.根据权利要求4所述的基于大数据与小数据相关分析实现幽默的方法，其特征在于：所述根据正相关语句集合和负相关语句集合，获取幽默语句集合，具体包括：从正相关语句集合中获取一个正相关语句及其正相关度；从负相关语句集合中获取一个负相关语句及其负相关度；将获取的正相关语句和负相关语句组合形成的语句作为一个幽默语句；将该幽默语句与第一小数据、第二小数据组合形成的语句作为统一语句；统计该统一语句在大数据中相似数据的数量，作为该统一语句的第七数量；根据该幽默语句对应的正相关语句的第三数量、对应的负相关语句的第六数量以及对应的统一语句的第七数量，计算该幽默语句的正负统一相关度；其中，所述该幽默语句的正负统一相关度，具体计算公式为：该幽默语句对应的统一语句的第七数量/((该幽默语句对应的正相关语句的第三数量×该幽默语句对应的负相关语句的第六数量)1/2)；根据正相关度、负相关度和正负统一相关度，计算该幽默语句的幽默度；其中，该幽默语句的幽默度，具体计算公式为：((正相关度×负相关度)1/2))×正负统一相关度；将幽默度大于预设幽默阈值的幽默语句及其幽默度存入幽默语句集合。6.基于大数据与小数据相关分析实现幽默的系统，其特征在于：所述系统应用于机器人中，包括：用户数据获取模块，用于获取用户的数据；小数据提取模块，用于从用户的数据中提取部分数据作为第一小数据，再提取部分数据作为第二小数据；大数据获取模块，用于获取大数据；相...

【专利技术属性】
技术研发人员：朱定局，
申请(专利权)人：大国创新智能科技东莞有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人