Spark

  Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算, 拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS, 因此Spark能更 好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法

0
推荐
2438
阅读

Spark standalone模式部署中的一些问题

最近准备把一些批量的应用转换到Spark Streaming上, 先部署到standalone模式上 ,  将碰到的一些问题记录下来供接下来参考.具体使用Spark 2.2.1, 脚本使...
2
推荐
2599
阅读

Spark作业基本运行原理解析!

1、基本原理Spark作业的运行基本原理如下图所示:我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。提交作业的节点称为Ma...
3
推荐
2736
阅读

虚拟机安装CentOS系统,并在系统里安装python、spark、kafka,建立postgreSQL数据库

虚拟机直接网上下载后,按照流程一键安装就行,这个比较简单就不多叙述一、安装linux系统1.1  安装好虚拟机后,直接去官网下载CentOS7,链接http://mirr...
4
推荐
1690
阅读

Spark Streaming相关的0到1计划

最近计划流相关的技术改进, Goldengate到Kafka的连接已经打通, 最近在准备Spark Streaming相关内容, 把计划工作列一下.0了解阶段--Spark能实现什么内容 0.1 ...
3
推荐
3999
阅读

Hadoop + Hive + Spark 完整安装攻略

Prerequisites 桌面环境: Mac OSX虚拟机管理软体: Vagrant虚拟机: Virtual BoxClone repogit clone https://github.com/bryanyang0528/hellobicd h...
2
推荐
2032
阅读

spark2.x源码阅读之SparkSubmit

        通常spark程序提交通过bin/spark-submit.sh,而在shell中调用的是org.apache.spark.deploy.SparkSubmit,阅读代码如下:1.Spark...
2
推荐
1761
阅读

spark环境搭建

准备工作 一套搭建好的hadoop环境下载scala、spark安装包1、安装scalatar -xzvf scala-2.12.3.tgz2、安装sparktar -xzvf spark-2.2.0-bin-had...
2
推荐
2491
阅读

[Apache Spark][基本架构] RDD特性(一)

万丈高楼平地起,要熟悉Spark就得熟悉RDD,要熟悉RDD,就是要看Doc.当我们对RDD做运算时,其实都会产生不同的RDD.RDD的官方文件(http://spark.apache.org/...
7
推荐
4813
阅读

windows下虚拟机配置spark集群最强攻略!

1、虚拟机安装首先需要在windows上安装vmware和ubuntu虚拟机,这里就不多说了vmware下载地址:直接百度搜索,使用百度提供的链接下载,这里附上一个破解码5A0...
0
推荐
2610
阅读

数据开发系列篇(3):spark实战高手之路(一):如何搭建spark集群 面包君

从零起步,构建Spark集群经典四部曲:第一步:搭建Hadoop单机和伪分布式环境;第二步:构造分布式Hadoop集群;第三步:构造分布式的Spark集群;第四步:测试S...
3
推荐
2105
阅读

在 Spark 中使用 IPython Notebook

本文是从 IPython Notebook 转化而来,效果没有本来那么好。主要为体验 IPython Notebook。至于题目,改成《在 IPython Notebook 中使用 Spark》也可以,没什...
0
推荐
2072
阅读

轻量级OLAP(一):Cube计算

有一个数据多维分析的任务:日志的周UV;APP的收集量及标注量,TOP 20 APP(周UV),TOP 20 APP标注分类(周UV);手机机型的收集量及标注量,TOP 20 机型(周U...
3
推荐
4587
阅读

Idea下使用maven打包可执行jar包并小案例演示

这一阵子在学习spark,有些本地执行不了,需要到集群上才能执行,奈何打包后的jar包放到集群上跑后一直找不到主类,折腾了好一会才搞出来,所以来此记录一下...
2
推荐
2930
阅读

Scala学习总结(一)

Scala是Spark的原生语言,读懂Spark源码的先前条件就是要学会Scala,因此scala学习是重要的。最近一周学习量大,主要是观看中华石杉老师的视频和快学scala这...
3
推荐
2753
阅读

Spark学习总结(一)

最近一周学习了scala编程基础和spark核心编程,现主要对所学的spark部分做个总结。RDD及其特点1、RDD是Spark的核心数据模型,但是个抽象类,全称为Resillient...

887 人关注

最佳回复者

改版

反馈