大数据学习路线2020版-金罗的专栏

大数据学习路线2020版

2020-02-03 12:39:26栏目：默认栏目 IP属地：IP未知

大数据（BIG DATA）是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的5V特点：VOLUME（大量）、VELOCITY（高速）、VARIETY（多样）、VALUE（低价值密度）、VERACITY（真实性）。

为什么要学习大数据？

目前，全球数据呈现爆发增长、海量集聚的特点。大数据计算技术完美地解决了海量数据的收集、存储、计算、分析的问题。预计到2022年大数据市场规模达800亿美元，年均实现15.37%的增长，大数据时代开启人类社会利用数据价值的另一个时代。国家对大数据战略政策的制定和实施，也是大数据市场不断发展的有力条件。

应用领域广：产业规模空前，各行持续发力：包含金融、政务、交通、电信、商贸、医疗、教育、旅游、工业、农业等行业领域。就业薪资高：行业平均月薪22690元，30K-50K占29.7%，20K-30K占43.2%，15K-20K占12.2%，10K-15K占2.7%，6K-8K占8.1%。缺口大：行业日招聘岗位量154598个，智联日招聘量50916条，前程无忧日均招聘量55804条，猎聘日均招聘量1万+条，职友集日均招聘量37878条。政策支持：国家大力推动实施大数据发展战略，行业政策环境良好。

十二届全国人大二次会议政府工作报告：“要设立新兴产业创业创新平台，在新一代移动通信、集成电路、大数据、先进制造等方面赶超先进。”

十八大期间国务院颁发文件：“《促进大数据发展行动刚要》的颁发，证明大数据成为推动经济转型发展的新动力。”

党的十九大报告中提出：“加快建设制造强国，加快发展先进制造业，推动互联网、大数据、人工智能和实体经济深度整合。”想学习好大数据可以加我vx号（VIP452141 ）有视频资源分享一起学习

大数据学习路线大纲：

第一阶段：Java语言基础阶段

1.1 Java编程语言基本概述

1.1.1 计算机语言与编程概述 1.1.2 介绍Java生态圈……

1.2 Java基础语法

1.2.1 分支循环语句 1.2.2 if分支结构……

1.3 面向对象编程

1.3.1 软件的生命周期 1.3.2 软件的设计原则……

1.4 面向对象高级编程

1.4.1包 (package) 的管理与作用 1.4.2JavaBean规范……

1.5 Java中的常用类库

1.5.1包装类（Wrapper Class） 1.5.2装箱和拆箱……

1.6 枚举和异常类

1.6.1枚举定义和使用 1.6.2通过枚举的class文件查看底层实现……

1.7 Java数据结构和集合框架泛型

1.7.1数据结构举例剖析 1.7.2数组的定义和使用方式……

1.8 Java中的IO流

1.8.1File类的常用操作 1.8.2递归遍历文件夹……

1.9 Java中的多线程

1.9.1程序，进程，线程的关系详解 1.9.2线程的原理……

1.10 Java中网络编程和反射

1.10.1网络通讯协议 1.10.2网络七层协议……

1.11 Java8新特性

1.11.1Lambda表达式 1.11.2Java可以函数式编……

1.12 Java基础加强

1.12.1Tomcat介绍与搭建 1.12.2软件B/S和C/S……

第二阶段：Linux系统&Hadoop生态体系

01、 Linux入门

02 、常用基本命令

03 、系统管理

04 、Linux操作增强

05 、Linux shell编程

06 、Hadoop生态

07、分布式系统概述

08、 Hadoop入门

09、 Hadoop伪分布式

10、 Hadoop全分布式

11、 HDFS基本概念

12 、HDFS的应用开发

13、 HDFS的IO流操作

14 、NameNode工作机制

15、 DataNode工作机制

16、 Zookeeper入门

17 、Zookeeper详解

18 、HA框架原理

19、 Hadoop-HA集群配置

20 、MapReduce框架原理

21 、Shuffle机制

22、 Mapreduce案例一

23、 Mapreduce案例二

24 、Hive入门

25 、Hive DDL数据定义

26 、Hive分区表

27 、Hive分桶表

28、 Hive查询

29 、Hive的高级查询Join与排序

30 、Hive的函数

31、 Hive DML数据管理

32 、Hive文件存储

33、 Hive企业级调优

34 、Hive企业级调优二

35、 Hive企业级项目实战

36、 Flume详解

37、 Sqoop详解

38、 Hbase概念

39 、Hbase的操作

40 、Hbase整合

41 、Hbase的实战和优化

第三阶段：分布式计算框架

3.1 scala

3.1.1 安装idea配置环境变量 3.1.2 Maven本地库配置 3.1.3 JDK环境变量配置 3.1.4 idea版本配置……

3.2 Spark Core

3.2.1 大数据架构体系 3.2.2 架构详解 3.2.3 Spark集群介绍 3.2.4 Spark集群配置……

3.3 Spark SQL

3.3.1 Spark SQL的发展历史 3.3.2 Spark SQL的原理介绍 3.3.3 DataFrame概述 3.3.4 创建DataFrame的方式……

3.4 Spark Streaming

3.4.1 Spark Streaming概述 3.4.2 Spark Streaming的原理介绍 3.4.3 Spark Streaming与Storm对比 3.4.4 DStream的概念……

3.5 kafka

3.5.1 Kafka的基本概念3.5.2 Kafka的发展历史3.5.3 Kafka的应用背景3.5.4 JMS基础……

3.6 ElasticSearch

3.6.1 全文检索技术简介 3.6.2 ES安装配置入门 3.6.3 ES插件安装 3.6.4 ES基本操作……

3.7 Logstash

3.7.1 Logstash介绍 3.7.2 Input组件介绍 3.7.3 Filter组件介绍 3.7.4 Output组件介绍……

3.8 Kibana

3.8.1 Kibana介绍 3.8.2 Kibana环境准备 3.8.3 Kibana安装 3.8.4 Kibana演示……

3.9 Kibana

3.9.1 什么是NoSQL 3.9.2 NoSQL数据库的分类 3.9.3 Redis介绍 3.9.4 Redis发展历史……

第四阶段：大数据实战项目

4.1 互金领域-广告投放

项目介绍：构建广告投放平台，进行广告投放业务，吸引潜在客户，推广产品，包含投放微服务平台、竞价模块、客户群体画像、千人千面推荐产品。

4.2 电商平台

项目介绍：埋点业务，进行用户细分画像、建立信用体系、进行线上各类活动。

4.3 共享单车

项目介绍：依据用户行为轨迹构成出行规律，根据用户群体出行规律、区域情况等动态调度用车情况。

4.4 工业大数据

项目介绍：国家电网_省级输／变电监控项目：监控线路的传感设备，确保设备安全、降低故障成本，动态监控线路、变电站二次设备工作情况、报警自动化。

4.5 交通

项目介绍：贵州交通厅，交通离线/实时监控项目：通过交通卡口采集实时数据，动态监控全省各道路通行和事故状况，避免拥堵、避免交通事故、精准测速、防止套牌和提供便捷最佳出行方案、预测拥堵系数，为各级提供最优道路规划方案。

4.6 旅游

项目介绍：安顺智慧旅游，整合各类旅游相关应用系统及信息资源，在公安、交通、工商等相关领域实现信息共享、协同合作，共同打造良性的旅游云生态系统。

4.7 医疗

项目介绍：某市人民医院，随着老年化的持续增加，患病率越来越高。增加大数据平台，采集医疗相关数据，提高诊断的准确性，预防一些疾病的发生，监控相关病情康复进展，真正实现解决看病难，降低发病率等。

第五阶段：大数据分析

5.1 Data Analyze数据分析基础

5.1.1 AI&&机器学习&&深度学习概论 5.1.2 数据科学……

5.2 工作环境准备

5.2.1 数据分析中常用的Python技巧 5.2.2 Python字符串操作……

5.3 数据可视化的概念与准则

5.3.1 Python Matplotlib库 5.3.2 Matplotlib架构……

5.4 Python机器学习

5.4.1 机器学习的基本概念 5.4.2 分类算法与回归算法……

5.5 选择模型

5.5.1 训练模型 5.5.2 测试模型……

5.6 构建树的过程

5.6.1 sklearn中决策树重要的参数 5.6.2 通过决策树可以得到特征的重要性得分……

5.7 网格搜索

5.7.1 10折交叉验证 5.7.2 模型评价指标及模型选择……

5.8 sklearn中有三类朴素贝叶斯算法

5.8.1 Bernoulli模型 5.8.2 Multinomial模型……

5.9 颜色特征

5.9.1 纹理特征 5.9.2 形状特征……

5.10 手写数字识别

5.10.1 人脸识别 5.10.2 物体识别……

5.11 文本的基本组成

5.11.1 Python常用文本处理函数（字符串操作） 5.11.2 正则表达式……

5.12 文本的基本组成

5.12.1 主题模型及LDA 5.12.2 隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)……

下面我讲一下大数据目前比较热门的就业方向:

1、大数据研发

2、大数据分析与挖掘

3、深度学习

4、人工智能

大数据学习路线2020版

Java:

只需要学习Java的标准版JavaSE就可以了。

Linux:

主要掌握Linux操作系统的理论基础和服务器配置实践知识，同时通过大量实验，着重培养动手能力。使学生了解Linux操作系统在行业中的重要地位和广泛的使用范围。在学习Linux的基础上，加深对服务器操作系统的认识和实践配置能力。加深对计算机网络基础知识的理解，并在实践中加以应用。

掌握Linux操作系统的安装、命令行操作、用户管理、磁盘管理、文件系统管理、软件包管理、进程管理、系统监测和系统故障排除。掌握Linux操作系统的网络配置、DNS、DHCP、HTTP、FTP、SMTP和POP3服务的配置与管理。为更深一步学习其它网络操作系统和软件系统开发奠定坚实的基础。与此同时，如果大家有时间把javaweb及框架学习一番，会让你的大数据学习更自由一些。

好说完基础了，再说说还需要学习哪些大数据技术，可以按我写的顺序学下去。

Hadoop:

Hadoop解决了什么问题，Hadoop就是解决了大数据(大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理)的可靠存储和处理。

记住学到这里可以作为你学大数据的一个节点。

Zookeeper:

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

他的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

ZooKeeper代码版本中，提供了分布式独享锁、选举、队列的接口，代码在zookeeper-3.4.3src ecipes。其中分布锁和队列有Java和C两个版本，选举只有Java版本。

Mysql:

MySQL是一个关系型数据库管理系统，由瑞典MySQL AB 公司开发，目前属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一，在 WEB 应用方面，MySQL是最好的 RDBMS (Relational Database Management System，关系数据库管理系统) 应用软件。

MySQL是一种关系数据库管理系统，关系数据库将数据保存在不同的表中，而不是将所有数据放在一个大仓库内，这样就增加了速度并提高了灵活性。

MySQL所使用的 SQL 语言是用于访问数据库的最常用标准化语言。MySQL 软件采用了双授权政策，分为社区版和商业版，由于其体积小、速度快、总体拥有成本低，尤其是开放源码这一特点，一般中小型网站的开发都选择 MySQL 作为网站数据库。

Sqoop:

这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。

Hive:

这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

Oozie:

既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapReduce、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的，不然你看着那一大堆脚本，和密密麻麻的crond是不是有种想屎的感觉。

Hbase:

这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka:

这是个比较好用的队列工具，队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理，这样与你协作的其它同学不会叫起来，你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来，你别怪他因为他不是搞大数据的，你可以跟他讲我把数据放在队列里你使用的时候一个个拿，这样他就不在抱怨了马上灰流流的去优化他的程序去了，因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS，这时你可以与一个叫Flume的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方(比如Kafka)的。

Spark:

它是用来弥补基于MapReduce处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它，因为它们都是用JVM的。