专业只做数据库实训和认证的品牌机构

微信公众号新浪微博
免费咨询电话:400-0909-964
当前位置: 网站首页 > Hadoop > Hadoop课程 > Hadoop入门教程:什么是大数据

Hadoop入门教程:什么是大数据

文章来源: 更新时间:2016/7/13 15:56:12

在线老师点击咨询:

最新学讯:近期OCP认证正在报名中,因考试人员较多请尽快报名获取最近考试时间,报名费用请联系在线老师,甲骨文官方认证,报名从速!

我要咨询

Hadoop入门教程:什么是大数据?大数据一般是指这样的数据:数据量巨大,需要运用新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用,大数据工程和大数据科学尚未被重视。大数据工程指大数据的规划建设及其运营管理的系统工程;大数据科学关注的是大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。

大数据的特征有四个层面:第一,数据量巨大,从TB级别,跃升到PB级别;第二,数据类型繁多,包括网络日志、视频、图片、地理位置信息等;第三,价值密度低,商业价值高,以视频为例,在连续不间断的监控过程中,可能有用的数据仅仅只有一两秒;第四,处理速度快。最后这一点也和传统的数据挖掘技术有着本质的不同。业界将其归纳为4V——Volume、Variety、Value和Velocity。

上面我们介绍了大数据的基本概念以及其显著的特征,下面将从不同的维度来阐述大数据的核心问题。

1.数据态的多样性问题

大数据具有多态性,主要体现在数据源、结构及相关度上,在数据来源上包括图像、视频、音频、文本、网页、数据流等;在结构上不仅仅包括结构化的数据,还包括非结构化的数据;在相关度上不仅有数据记录彼此间相关性问题,还有时间序列数据的相关性问题。

2.维度复杂性问题

首先,大数据中存在着多元空间的维度问题,例如典型的三元空间中大数据的产生、状态感应以及采集问题,这个问题在物联网中非常常见;其次,就是柔性粒度数据的传输、移动、存储及计算问题;最后,就是数据空间范围和数据密度的不均匀问题。

3.大数据存储问题

大数据最为显著的特征就是数据规模非常巨大,单机系统肯定无法解决存储问题,这就需要分布式存储系统作为大数据的存储支撑服务,而分布式存储系统需要考虑的核心问题包括:高可靠性、扩展性、伸缩性、容灾及恢复等问题。

4.大数据计算分析问题

由大数据的特征可知,大数据在数据规模上非常巨大,要在一定的时间内达到撷取、管理、处理并整理为能够帮助企业做出经营决策更有效的资讯,传统的顺序计算模式必然不能满足这样的需求,这就要求使用集群计算系统来完成计算分析任务。基于集群的计算模型目前主要包括:基于消息传递的MPI、MapReduce计算模型、流式计算架构Storm、S4、高性能集群计算HPCC,以及基于共享内存RDD的Spark模型。

5.大数据价值挖掘问题

由于大数据的价值密度低而商业价值大,这使得大数据的价值挖掘显得格外重要,而价值挖掘主要包括两个阶段:第一个阶段就是过滤清洗,需要在尽量不损失其价值的条件下减小数据规模,同时在不改变数据基本属性的情况下采取数据清洗、抽样、去重、过滤、筛选、压缩、索引、提取元数据等方法,以直接将大数据变小;第二个阶段就是对商业价值的挖掘,主要是发挥大数据探索式考察与可视化作用,人机的交互分析可以将人的智慧融入数据,再者是通过群体智慧、社会计算、认知计算对数据价值进行提炼,从而挖掘出大数据中隐藏的商业价值。

本文地址:http://www.cuug.com.cn/hadoop/kecheng/12464625473.html 转载请注明!


在线预约 抢先报名 获取课程排期

Oracle培训机构

金牌讲师<>

冉乃纲-老师CUUG金牌讲师
冉老师 CUUG金牌讲师 Oracle及RedHat高级讲师、Unix/Linux 资深专家...[详细了解老师]

免费咨询上课流程 客服在线中

陈卫星-老师CUUG金牌讲师
陈老师 CUUG金牌讲师 精通Oracle管理、备份恢复、性能优化 11年Ora...[详细了解老师]

免费咨询上课流程 客服在线中

选学校如何选择适合自己的学校

CUUG -CHINA UNIX USER GROUP,是国际UNIX组织UNIFORUM的中国代表,是国内悠久的专业UNIX培训机构,被誉为中国UNIX 的摇篮。多年来,以提高教学质量为本,强调素质教育,积极引进、消化国外的新技术,有效的结合中国....[详情]

一站式服务(从入学到就业一帮到底)

入学

学习

就业

实操

食宿
地址:北京市海淀区田村山南路35号院17号楼
课程咨询:010-59426307 010-59426319 400-0909-964
企业服务:137 1818 8639(陈经理)
部分信息来源于网络,如有错误请联系指正!
版权所有@北京神脑资讯技术有限公司 (CUUG,中国UNIX用户协会) Copyright 2016 ALL Rights Reserved 京ICP备11008061号-1