¥面议
课程简介:大数据”是近年来IT行业的热词,目前已经广泛应用在各个行业。大数据,又称海量信息,特点是数据量大、种类多、实时性强、数据蕴藏的价值大。
课程详情 2022-01-11 15:06
四大班型 为你而生 为你所需
零基础周末班
课程设置与脱产班相同
学习工作两不误
适合需要周末上课人群
全日制脱产就业班
面向零基础小白
5个月完成学习过程
走向成功之路
精英提高班
面向已经有一定基础
但急需提升职场竞争力的在职人群
在线精品课程
同步线下面授课程
纯干货技术课堂
时间地点任你选
大数据入门基础课程
JavaSE;MySQL;JDBC;Linux;shell;HTML;CSS;JavaScript;JSP;Servlet
大数据Hadoop基础
大数据概论;Hadoop框架;HDFS分布式文件系统;MapReduce计算模型;全真实训项目
大数据离线分析
Hive数据仓库;Sqoop ETL工具;Azkaban工作流引擎;Ooize;Impala;全真实训项目
大数据实时计算
Zookeeper分布式协调系统;HBase分布式数据库;Redis数据库;mogDB数据库;Kudu列式存储系统;Storm实时数据处理平台;Kafka分布式发布订阅消息系统;Flume海量日志采集系统;全真实训综合项目
Spark数据计算
Scala;Spark;RDD;Spark SQL;Streaming;Mahout;MLlib;GraphX;Spark R;Python;Alluxio;Python爬虫;ElasticSearch;Lucene
Hadoop基础实战
项目名称:搜狗搜索日志分析系统
数据体量:5000W+/日
硬件环境:Hadoop集群 12台
软件环境:Hadoop2.5.2+Hive1.2.1+MR+Oracle10g
项目描述:搜狗每天产生大量的日志数据,从日志数据里面能提取到有用的数据包括每个用户的ID、浏览次数、月/日浏览频率、访问源、浏览内容等等,
提取这些内容、统计数据分析每个用户行为,从而做出有利的决定。
大数据离线实战
项目名称:新浪微博数据分析系统
日均数据体量:3GB+
硬件环境:Hadoop集群 50台
软件环境:MapReduce+HBase0.98.9+Storm0.9.6+Hadoop2.5.2+Kafka2.10+Zooke
eper3.4.5+CentOS-6.5-X86
项目描述:此次项目我们需要处理微博产生的数据,通过对数据的处理得到所需的数据,微博拥有大量的用户,大量的用户潜在的价值是巨大,
怎么挖掘这些潜在的宝藏就是我们项目最直接的目的,为了能够实时的进行数据处理使用Storm流式计算系统,和HBase、Zookeeper、Kafka组成框架,
对数据进行处理,当然这些都是建立在hadoop集群上实现的,底层的存储还是HDFS。
大数据实时计算
项目名称:网络流量流向异常账号统计项目
数据体量:每天1000亿,每秒峰值100 000
硬件环境:Hadoop集群 600台
软件环境:Hadoop2.5.2+Hive1.2.1+MR+Oracle10g
项目描述:运营商骨干网上采集现网流量流向信息,根据这些原始信息检测账号是否存在异常,如果多个终端使用同一个宽带账号,超过一定阈值则触发报警机制,
例如阈值为5时,同一个账号同时连接的终端数量不能超过该值,如果超过则报警。
Spark阶段项目
项目名称:京东网上商城数据统计分析平台
数据体量:5000W+/日
硬件环境:centos-6.5-x86 集群:spark standalone(Master-1,Worker-3)
软件环境:hadoop,spark,hive,mysql,idea,navicat,kafka,flume
每日处理的数据量:3GB
项目描述:基于京东网上商城数据统计分析平台--该项目采用了目前大数据领域非常流行的技术——Spark。
本项目使用了Spark技术生态栈中最常用的三个技术框架,Spark Core、Spark SQL和Spark Streaming,进行离线计算和实时计算业务模块的开发。
实现了包括:统计和分析UV、PV、登录、留存、热门商品离线统计、广告流量实时统计3个业务模块。
最新评论
违**诺
5.0 分2021-11-08 15:44
4个月的日子,非常快。感谢在云和数据学习的这段时光,充实、饱满、快乐、友爱,可以用这八个字来形容