Spark

  Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算, 拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS, 因此Spark能更 好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法

2
推荐
2349
阅读

在阿里云上搭建 Spark 实验平台

之前在自己的笔记本上运行 Python 代码,有些要运行一天多,一关机就前功尽弃,很不方便,所以才有租用阿里云服务器的想法,用了同学租的一台用了两天又觉得...
2
推荐
2948
阅读

Scala学习总结(一)

Scala是Spark的原生语言,读懂Spark源码的先前条件就是要学会Scala,因此scala学习是重要的。最近一周学习量大,主要是观看中华石杉老师的视频和快学scala这...
2
推荐
2499
阅读

[Apache Spark][基本架构] RDD特性(一)

万丈高楼平地起,要熟悉Spark就得熟悉RDD,要熟悉RDD,就是要看Doc.当我们对RDD做运算时,其实都会产生不同的RDD.RDD的官方文件(http://spark.apache.org/...
2
推荐
1767
阅读

spark环境搭建

准备工作 一套搭建好的hadoop环境下载scala、spark安装包1、安装scalatar -xzvf scala-2.12.3.tgz2、安装sparktar -xzvf spark-2.2.0-bin-had...
2
推荐
2608
阅读

Spark作业基本运行原理解析!

1、基本原理Spark作业的运行基本原理如下图所示:我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。提交作业的节点称为Ma...
2
推荐
9060
阅读

spark中df, rdd, list 转换

df to rdd: df.rdd.map(list) df.rdd.map(tuple) df.rdd.map(lambda x: list(x[0])) rdd to list: rdd1.collect() df to list: df.rdd.map(...
2
推荐
2034
阅读

spark2.x源码阅读之SparkSubmit

        通常spark程序提交通过bin/spark-submit.sh,而在shell中调用的是org.apache.spark.deploy.SparkSubmit,阅读代码如下:1.Spark...
1
推荐
1804
阅读

spark处理大规模语料库统计词汇

最近迷上了spark,写一个专门处理语料库生成词库的项目拿来练练手, github地址:https://github.com/LiuRoy/spark_splitter。代码实现参考wordmaker项目,有...
1
推荐
1724
阅读

三个框架与库,SFrame,Hdp2与skflow

今天给各位亲推荐数据科学的三个框架或者库。01 SFrame这家公司最初的名字叫graphlab,后来改名为dato,最近又进行了一次改名,叫turi了,这名字起得,图日吗...
1
推荐
2420
阅读

spark2.0中求最值,平均值,TopN编写

对比MR,spark编写计算要简洁很多,代码如下:import org.apache.spark.sql.SparkSession object App { def main(args: Array[String]): Unit = { /...
1
推荐
1814
阅读

基于spark和hive的thrift server的代理中间件开发

1.hive环境0.132.实现功能通过启动代理的thrift server服务,能够分发到实际启动的spark thrift,使spark thrift 服务不会是指定用户访问,交由代理层控制。3...
1
推荐
4503
阅读

Spark笔记1--以表头创建空的dataset

最近上手Spark相关的项目,实践过程中遇到的几个问题,来此记录下。1.引入maven包 org.apache.spark spark-core_2.11 2.3.0 org.apache.spark spark-...
1
推荐
1845
阅读

无缝对接Spark与R:Sparklyr系列—探讨属于数据科学家的Spark

作者:黄天元,复旦大学博士在读,目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验,推广并加深R语言在业界的应用。邮箱:huang.ti...
1
推荐
2133
阅读

通过jdbc读取OBIEE数据--Spark示例

最近在用Spark同步数据的时候想到,是否可以直接从已有的OBIEE读取数据,OBIEE上面有完整的语义层,读取数据就比较方便了.想到以前Rittmanmead有篇blog提到,如...
1
推荐
2457
阅读

Spark Structured Streaming的一些link

最近在测试相关内容, 以下列了一些我觉得有用的link官方文档Spark Structured Streaming Programming Guide https://spark.apache.org/docs/latest/structure...

887 人关注

最佳回复者

改版

反馈