在Spark里面要根据你的作业使用资源的情况,合理的配置资源才行。目前Spark的资源配置还没有这么智能,需要根据经验来合理的进行配置,当然你也可编写程序,根据...
2017-03-01 14:05 回复了该问题日期函数UNIX时间戳转日期函数: from_unixtime语法: from_unixtime(bigint unixtime[, string form...
2017-03-02 10:44 回复了该问题流数据处理?SparkStreaming+kafka+flume可以的。详细可以参考spark官网
2017-07-02 11:36 回复了该问题SparkStreaming中使用SparkSql,将RDD转换为DataFrame,利用其上的高层API将结果保存到Mysql,指定SaveMode是Over...
2017-03-08 13:46 回复了该问题message:Could not connect to meta store using any of the URIs provided. Most rec...
2017-03-14 09:52 回复了该问题最简单的线性回归model<-lm(y~x,data),得到一个线性模型,使用predict(model,other_data)方法在model模型上预测...
2017-03-15 17:36 回复了该问题区别在于第一个map中的r是数组类型,通过圆括号加索引的形式取得数组中的元素,第二个map中的r是tuple,通过下划线_1,_2的方式取得tuple对应位置的...
2017-03-15 22:43 回复了该问题1.看你使用什么调度模式。如果要使用yarn资源管理框架,使用yarn这种调度模式,那需要部署hadoop中的yarn。 2.Spark计算虽然不依赖hadoo...
2017-04-18 10:45 回复了该问题我觉的行,不过没有尝试过使用hadoop2.6.0-eclipse-pluging. 只要大的 版本号一样就 没什么问题,试试即可, 不行再换2.7
2017-04-18 10:49 回复了该问题看你要做什么,如果只是刻画用户的画像,做一些简单的统计并不需要用到mllib,但让做离线大数据处理用mapreduce计算模型推荐首选spark做计算引擎,原因...
2017-03-17 14:57 回复了该问题不行的,这个原理是这样的。你自己的写的UDF需要通过udf上的register方法注册到SqlContext上,而SqlContext是在Driver进程启动的...
2017-04-20 17:53 回复了该问题GFS实际上是一个分布式存储系统,hadoop为你提供了分布式计算(mapreduce)、分布式存储(hdfs)、任务调度(yarn)的功能,在hadoop之上...
2017-04-20 18:20 回复了该问题[url]http://archive.ics.uci.edu/ml/[/url] 这上面有300来个开放的数据集
2017-03-23 15:14 回复了该问题