Spark

  Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算, 拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS, 因此Spark能更 好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法

0
推荐
2227
阅读

利用 Spark 和 scikit-learn 将你的模型训练加快 100 倍

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。来源 | AI开发者(okweiwu)作者 | skura在 Ibotta,我们训练了...
0
推荐
2450
阅读

Spark standalone模式部署中的一些问题

最近准备把一些批量的应用转换到Spark Streaming上, 先部署到standalone模式上 ,  将碰到的一些问题记录下来供接下来参考.具体使用Spark 2.2.1, 脚本使...

887 人关注

最佳回复者

改版

反馈