大数据入门教程一
2019-10-09 13:47:47
  • 0
  • 0
  • 0
  • 0

我们都知道大数据技术是未来10~20年的企业核心竞争力。

前言

跟大家所有coder一样,技术栈主要有C++、java和php,从事过地铁AFC系统,系统服务,设备驱动,cos,商城系统后台等开发,但是未来10年,靠语言和开发经验优势来提升的空间会越来越低,所以现在就要果断的像大数据技术看齐。

那么我在这个转型的过程中,遇到了N多的坑,最苦恼的是没有一个系统的,step-by-step的 


想要在大数据这个领域汲取养分,让自己壮大成长。分享方向,行动以前先分享下一个大数据交流分享资源群870097548,欢迎想学习,想转行的,进阶中你加入学习。


什么是大数据 big data?

今天,你如果不懂大数据,不知道大数据,


不会用大数据,别人会觉的你很low,自己也内心自卑内分泌失调!


在正式讲大数据之前,伟哥不得不提两个概念:分布式与并行计算 

 

让我们考虑一个场景: 

一个大学里面,每年都有很多学生参加各种不同学科的入学考试,但是把所有学生集中到一个校区是不现实的!因此,我们会把学生分成若干小组,把他们分到各个附属的学院,根据预先定好的配额,学校使用入学考试成绩作为标准,把学生分配到不同的学院。大家注意到了没有: 将大量的数据分成若干小组,再把各组数据分配到互相连接计算机系统中,完成任务,这就是分布式和并行计算的原理,讲明白了,你听明白了吗!?


讲多个任务分解成N个小任务,这样不仅可以短时间内计算大量数据,而且解决了延时的问题。因为一个大任务包含的数据实在太多了。


hadoop

hadoop就是为此而生,它的本质就是一个分布式存储框架。一个在分布式计算环境下,用来计算大量结构化和非结构化数据的开源软件平台。 

我们继续拿学院和学生来举例,大学的各个附属学院,分别使用各自的资源帮助学生获取知识,但不论你是哪个学院的,最终的文凭由大学统一颁发。类似的,hadoop有一个叫MapReduce的机制。


它的计算原理是:hadoop将大量数据分解成较小的可控的数据块,然后分发到各个计算机中,并发送一个作业代码,来追踪数据的位置,一旦各个计算机完成了分布式计算任务,数据会被收集起来组成一个综合的数据结果集。


为什么hadoop最流行

在所有技术中当中,为什么hadoop最流行


考考你!?

指导大家最讨厌考试,但是还是要考考你?


什么是分布式计算?

分布式计算就是一组相互独立的计算机系统,通过网络链接起来,共同完成一个具体的任务。


恭喜你,大数据第一课完成,已经没人敢鄙视你了~!



最新文章
相关阅读