Spark

  Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算, 拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS, 因此Spark能更 好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法

0
推荐
1539
阅读

利用 Spark 和 scikit-learn 将你的模型训练加快 100 倍

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。来源 | AI开发者(okweiwu)作者 | skura在 Ibotta,我们训练了...
0
推荐
1490
阅读

Spark SQL 概述

推荐文章 https://blog.csdn.net/bingdianone/article/details/84134868大数据中的sql之前使用范围最广的是hadoop体系的中的hive sqlhive sql 原理是将sql转...
0
推荐
994
阅读

Spark概述及安装

推荐文章https://blog.csdn.net/bingdianone/article/details/84105561#Spark_1hadoop的生态圈Hive构建在HDFS上, 原理是将sql转mapreduceMahout,R语言机器...
0
推荐
945
阅读

数据挖掘之Spark学习

阅读路线:Hadoop与Spark比较Spark的安装Spark知识点一、Hadoop与Spark比较1.简单的比较刚开始学习Spark的时候,自己总是会想当然的理解两者之间的关系。Hadoo...
0
推荐
1032
阅读

30分钟理解Spark的基本原理

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。作者 | 梁云1991转载自Python与算法之美(ID:Python_Ai_Road)01Spar...
0
推荐
2257
阅读

Sparklyr与Docker的推荐系统实战

概述大数据时代,做数据分析的人才辈出,Java、Scala、Go、Julia、Python、JavaScript都不断涌现出很多数据分析的新工具,然而对于数据分析来说,这些工具都...
0
推荐
1431
阅读

sparklyr 1.0发布,有哪些新功能?

作者:Javier Luraschi翻译:黄小伟,10年资深数据矿工。目前就职杭州有赞,欢迎加入有赞分析团队sparklyr 1.0目前已经可以通过CRAN直接下载、安装使用!它提...
2
推荐
6210
阅读

spark中df, rdd, list 转换

df to rdd: df.rdd.map(list) df.rdd.map(tuple) df.rdd.map(lambda x: list(x[0])) rdd to list: rdd1.collect() df to list: df.rdd.map(...
1
推荐
1640
阅读

通过jdbc读取OBIEE数据--Spark示例

最近在用Spark同步数据的时候想到,是否可以直接从已有的OBIEE读取数据,OBIEE上面有完整的语义层,读取数据就比较方便了.想到以前Rittmanmead有篇blog提到,如...
1
推荐
1925
阅读

Spark Structured Streaming的一些link

最近在测试相关内容, 以下列了一些我觉得有用的link官方文档Spark Structured Streaming Programming Guide https://spark.apache.org/docs/latest/structure...
1
推荐
1283
阅读

无缝对接Spark与R:Sparklyr系列—探讨属于数据科学家的Spark

作者:黄天元,复旦大学博士在读,目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验,推广并加深R语言在业界的应用。邮箱:huang.ti...
0
推荐
3283
阅读

SparkStreaming下Python报net.jpountz.lz4.LZ4BlockInputStream的解决

这几天在测试SparkStreaming,连接Kafka一直报这个错, 18/08/30 21:09:00 ERROR Utils: Uncaught exception in thread stdout writer for python java.lang.No...
0
推荐
2366
阅读

Spark笔记2--Dataset保存为parquet格式遇到的问题

spark天然支持parquet,且其推荐的存储格式就是parquet,但存储时,对其列名有一定的要求:1.列名称不能包含" ,;{}()\n\t=" SparkSession spar...
1
推荐
3717
阅读

Spark笔记1--以表头创建空的dataset

最近上手Spark相关的项目,实践过程中遇到的几个问题,来此记录下。1.引入maven包 org.apache.spark spark-core_2.11 2.3.0 org.apache.spark spark-...
0
推荐
2090
阅读

Spark Streaming连接kafka测试

在上次使用了下kafka,在此测试下CentOS 7中Spark streaming连接kafka,并把数据传入postgresql中一、环境部署安装python3.6、spark 2.3、kafka,具体可以参考...

886 人关注

最佳回复者

改版

反馈