【大数据学习与分享】技术干货合集
从概念到使用、从基础到原理、从示例到实战的讲解一个技术,并会结合一些实际中当运用这些技术时遇到的问题
大数据学习与分享】主要是做什么的?
【大数据学习与分享】主要专注于大数据领域常用的技术,如Spark、Hadoop、Hive、HBase、Kafka、Zookeeper等技术的使用、实战技巧、源码解读,语言主要以Java和Scala为主,保证文章质量,为大家提供一个优质的大数据学习与分享平台。同时也会涉及到目前市场上已经开源的并且在企业中已得到实际应用的基于这些技术进行“封装”的一些技术。
但是专注于大数据却并不仅仅是大数据,毕竟技术是相通的,很多技术往往都有其共性,但也有各自的特色也就有了不同的适用场景。我们在学习一个技术的时候,不仅仅要学习如何用这个技术、如何学习它的原理等,更要了解它的思想,比如设计思想。这不仅仅会让我们对这个技术有更深层次的理解,也会帮助我们迅速的学习其他的如与其相关的技术,做到举一反三,事半而功倍。
【大数据学习与分享】能为大数据领域从业者带来什么?
其实不仅仅是大数据领域从业者,任何从事IT工作或者对IT技术感兴趣的人,相信在这里都能受益匪浅。技术干货、面试分享、源码解读、大数据项目经验以及实实在在的可用于实际企业开发的编程知识等都会陆续呈献给大家,后期还会为大家带来一些免费的学习资源,希望能够帮助小伙伴们在大数据领域得到更好的发展。
当然很多事物的成长都是双向的,“大数据学习与分享”也不例外。在为各位小伙伴们儿带来技术领域干货的同时,也希望能够得到各位的支持,如果有好的建议也希望不吝赐教。
【大数据学习与分享】目前的愿景?
【大数据学习与分享】致力于从概念到使用、从基础到原理、从示例到实战的讲解一个技术,并会结合一些实际中当运用这些技术时遇到的问题以及如何解决这些问题做一些分享交流,希望为所有技术爱好者带来一个学习、交流、分享的平台。
【大数据学习与分享】技术干货合集
大数据和OLAP技术汇总篇
Spark篇
- Spark集群和任务执行
- 对Spark硬件配置的建议
- Spark闭包 | driver & executor程序代码执行
- Spark RDD详解
- Spark为什么只有在调用action时才会触发任务执行呢(附算子优化和使用示例)?
- 通过spark.default.parallelism谈Spark并行度
- 聊聊Spark的分区
- 重要 | Spark分区并行度决定机制
- Spark在处理数据的时候,会将数据都加载到内存再做处理吗?
- Spark SQL | 目前Spark社区最活跃的组件之一
- Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件
- Spark存储Parquet数据到Hive,对map、array、struct字段类型的处理
- Spark SQL 小文件问题处理
- SparkSQL与Hive metastore Parquet转换
- Spark SQL如何选择join策略
- Spark SQL中Not in Subquery为何低效以及如何规避
- SparkSQL中产生笛卡尔积的几种典型场景以及处理策略
- SparkSQL真的不支持存储NullType类型数据到Parquet吗?
- Spark中广播变量详解以及如何动态更新广播变量
- Spark流式状态管理
- 解析SparkStreaming和Kafka集成的两种方式
- Spark推荐系统实践
- Spark实现推荐系统中的相似度算法
- Spark MLlib中KMeans聚类算法的解析和应用
- Spark和Spring整合处理离线数据
- 通过Spark生成HFile,并以BulkLoad方式将数据导入到HBase
- 如何获取流式应用程序中checkpoint的最新offset
- Spark之离线统计热点城市信息
- 学好Spark必须要掌握的Scala技术点
- Spark Executor内存管理
- Spark 数据倾斜及其解决方案
- 不可不知的Spark调优点
- 重要 | Spark和MapReduce的对比
- Spark和MapReduce任务计算模型
- Apache Spark 3.0.0重磅发布 —— 重要特性全面解析
- 自适应查询执行:在运行时提升Spark SQL执行性能
- 【PySpark源码解析】用Python调用高效Scala接口,搞定大规模数据分析
Hadoop篇
Hive篇
- Apache Hive
- Hive Join优化
- Hadoop支持的压缩格式对比和应用场景以及Hadoop native库
- Hive实现自增序列及元数据问题
- Hive Query生命周期 —— 钩子(Hook)函数篇
-
Hive常用性能优化方法实践全面总结
-
基于Hive进行数仓建设的资源元数据信息统计
- Spark SQL/Hive实用函数大全
- 经典的SparkSQL/Hive-SQL/MySQL面试-练习题
- Hive中的count(distinct)优化
HBase篇
- 深入探讨HBASE
- HBase高级特性、rowkey设计以及热点问题处理
- HBase中Memstore存在的意义以及多列族引起的问题和设计
- Hive数据导入HBase引起数据膨胀引发的思考
- 通过Spark生成HFile,并以BulkLoad方式将数据导入到HBase
- 从HBase底层原理解析HBASE列族不能设计太多的原因?
- 通过BulkLoad快速将海量数据导入到HBase
Kafka篇
- 分布式流平台Kafka
- Kafka作为消息系统的系统解析
- Kafka中sequence IO、PageCache、SendFile的应用详解
- Kafka分区分配策略(Partition Assignment Strategy)
- 如何为Kafka集群确定合适的分区数以及分区数过多带来的弊端
- Kafka集群消息积压问题及处理策略
- Kafka作为存储系统在Twitter的应用
数据仓库和数据分析篇
- 九种常见的数据分析模型
- 从统计学到机器学习,必须掌握的5个核心概念
- 浅谈数据仓库建设中的数据建模方法
- 数据仓库架构和建设方法论
- 数据湖VS数据仓库之争?阿里提出湖仓一体架构
- 初创公司数据仓库的建设实践
- 详解数据仓库的实施步骤
- 辨析BI、数据仓库、数据湖和数据中台内涵及差异点
- 企业大数据平台仓库架构建设思路
应用实践篇
- 大数据平台架构设计探究
- 都在说实时数据架构,你了解多少?
- 从 Spark Streaming 到 Apache Flink:bilibili 实时平台的架构与实践
- 菜鸟供应链实时数仓的架构演进及应用场景
- OPPO 实时数仓揭秘:从顶层设计实现离线与实时的平滑迁移
- 有赞大数据平台安全建设实践
- 海量数据实时分析服务技术架构演进
- 有赞数据仓库实践之路
- 有赞大数据离线集群迁移实战
- 饿了么元数据管理实践之路
- 元数据:数据治理的基石
- 数据质量:数据治理的核心
- 当我们聊数据质量的时候,我们在聊些什么?
- 有赞数据仓库元数据系统实践
- 面向企业数据中台的数据治理七把利剑
- 数据资产,赞之治理
- 下一个风口-基于数据湖架构下的数据治理
- 从数仓到数据中台,谈技术选型最优解
- 辨析BI、数据仓库、数据湖和数据中台内涵及差异点
- 有赞大数据离线集群迁移实战
- 如何设计实时数据平台 —— 技术选型与架构设计
- 数仓大法好!跨境电商 Shopee 的实时数仓之路
- 实时离线一体化助力渠道分析系统
- 推荐系统之标签体系
编程语言篇
Linux
职场经验篇
其他
关注微信公众号:大数据学习与分享,获取更对技术干货