并集:RDD1.union(RDD2).distinct 差集:RDD1.intersection(RDD2)
2017-02-23 10:59 回复了该问题直接看Spark官网吧,有Demo,自己动手做一下。
2017-02-23 11:34 回复了该问题可以啊,通过<name>hive.metastore.warehouse.dir</name>指定你hive仓库所在的路径,通常是hdf...
2017-04-03 21:02 回复了该问题提交作业很频繁吧?每次作业的提交都会实例化org.apache.hadoop.conf.Configuration这个类
2017-04-05 10:22 回复了该问题权限问题,不要在idea环境里面调,打包在服务器上运行。或者在spark-shell调试好代码在粘贴到idea里面最后再打包上传服务器运行。
2017-04-05 17:18 回复了该问题写个脚本判断是否有这个进程,如果没有重新启动~。当然如果你的SparkStreaming监控HDFS目录出现异常,说明的你程序本身的稳定性不好,最好做try c...
2017-02-28 08:40 回复了该问题你可以通过rdd.partitions.size在程序里面查看,比较方便的是你可以在spark-shell中 val a = spark.range(1,10...
2017-04-06 10:42 回复了该问题做数据统计或分析选择就多了。可以用R、Python、java等语言,将数据从HDFS读取出来后做一些数理统计。如果要用大数据处理方案,选择还是比较多的,建议使用...
2017-06-16 10:13 回复了该问题当然可以,你本地作为Driver节点,任务分发到集群上去执行。程序中指定master就可以了
2017-02-28 08:42 回复了该问题你可以到腾讯实验室看看。目前是免费试验
2017-08-30 10:19 回复了该问题你的目的是减少文件的个数,设置合理的分区数就可以了,例如设置分区数为5,对应5个文件。coalesce和repartitions都能设置分区数量,其底层原理有稍...
2017-08-30 10:23 回复了该问题报错很明显,没有将jar包含,应该有个API设置jar包,好像是setJar,没有jar包怎么能执行喃?具体怎么设置自行百度吧,智能帮你到这里了
2017-03-01 10:29 回复了该问题