Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法

排序：

时间未回答

4

投票

13

已解决

22434

浏览

超级菜鸟怎么学习数据分析？数据挖掘、工具、技术、所需知识点等？

2018-01-08 14:44 提问

0

投票

1

已解决

1029

浏览

谁用spark实现过这样的功能，就是根据分组字段，把同一组的字符串拼接成一个字符串。

2017-01-26 10:16 提问

0

投票

1

回答

1428

浏览

怎么对spark streaming 的每个batch 进行broadcast

2017-02-07 09:53 提问

0

投票

1

回答

1391

浏览

请问这种问题应该如何解决呢？执行命令：bin/spark-shell -master yarn-client出错：

2017-02-08 09:51 提问

0

投票

1

回答

986

浏览

scala API说明

2017-02-08 10:35 提问

0

投票

1

已解决

925

浏览

请问spark的一些通用参数，不限于某个模块的参数从哪里可以查询得到呢

2017-02-10 11:25 提问

0

投票

1

回答

1383

浏览

spark读取hive udf问题

2017-02-13 09:17 提问

0

投票

1

回答

1013

浏览

各位大神，我想问下，我用sparkStreaming要怎么实现对所有滑动窗口的 wordCount的top10进行累计？

2017-02-08 22:13 提问

0

投票

2

已解决

1237

浏览

spark 读取预分region的Hbase

2017-01-16 09:54 提问

0

投票

0

回答

899

浏览

有用过spark mllib里面的kmeans算法的朋友么请教个问题，在输出每个center的值的时候，输出的特征的顺序和训练数据中的特征顺序是一致的吧？

2017-02-03 10:50 提问

0

投票

0

回答

1124

浏览

有人知道这个问题是什么原因吗？我某个表的某个列族下的列名是以时间为前缀的，我写Mr统计的时候，scan 时，通过columnrangefilter获取符合某一天的rowkey个数与我在shell上scan是相等的，但是我不加列过滤，符合的rowkey 要比某一天的少

2017-01-15 11:46 提问

0

投票

1

回答

1079

浏览

想请教下，现在公司里面Mllib用的什么业务场景比较多呢？

2017-01-11 14:02 提问

0

投票

0

回答

1244

浏览

spark中的Accumulator怎么创建为 HashMap类型的啊

2017-01-13 09:18 提问

0

投票

1

回答

892

浏览

亲们，spark机器要运行，需要什么性能以上的服务器？？

2017-01-10 13:57 提问

0

投票

0

回答

1051

浏览

请问我Spark要往mongo里面写数据要怎么写啊，需要哪个包？

2017-01-10 13:10 提问

0

投票

1

回答

1187

浏览

对YARN、MapReduce的源码比较熟悉，能够修改源码；没接触过scala语言、spark，请问要修改spark 的job控制器要多久的学习时间（包括相应的scala语言、ide，调试的学习）

2016-12-22 15:25 提问

«
1
2
3
4
5
6
7
8
9
10
11
»

887 人关注

最佳回复者

Bob
获得12次推荐
MarsJ
获得8次推荐
牟瑞
获得5次推荐
万里88
获得4次推荐
在学古筝的程序员
获得3次推荐

改版

反馈