看有多少个partition就有多少个并发的任务,webui也可以看 [attach]34913[/attach]
2017-04-05 10:00 回复了该问题使用rdd上的randomSplit方法,将一个RDD随机拆分成多个RDD,randomSplit方法返回一个rdd数组,遍历数组,取出每个rdd,toDF后,...
2017-06-16 10:11 回复了该问题你是查hive表?查hive表,那首先你要在你的$SPARK_HOME/conf目录下加入你的hive的hive-site.xml配置文件。然后初始化Spark...
2017-03-01 08:11 回复了该问题1.检查你虚拟机的 防火墙,关闭防火墙 2.看虚拟机和你的电脑在不在同一个网段 3.建议使用桥接模式 4.建议配置static IP,防止 重新启动IP发生变化...
2017-03-01 10:25 回复了该问题xxx.map(data=>(a,(a,b,c)))
2017-03-06 10:41 回复了该问题用下面的方式试一试~IP=$1 PORT=$2 DB=$3 USERNAME=$4 PASSWORD=$5 TABLE=$6 HIVE_DB=$7 HIVE_T...
2017-03-17 10:01 回复了该问题并不是越多越好,你可以这样理解,hive的分区只是一个map的key,很显然要根据key寻找value,其时间复杂度为O(n),key越多遍历找key的时间越长...
2017-03-17 14:53 回复了该问题使用hive命令,利用外部数据在hive中建立分区【使用data_date作为hive表的分区,alter table命令表示修改hive表,为该表增加一个以d...
2017-02-20 11:30 回复了该问题excell文件上传HDFS目录。使用sparkstreaming的fileStream方法: streamingContext.fileStream(&qu...
2017-02-21 09:40 回复了该问题MetaException(message:Could not connect to meta store using any of the URIs prov...
2017-03-31 11:01 回复了该问题从后往前遍历,遇到ShuffleDependency就标记注册Shffule且ShffuleDependency是划分Stage的依据,前半部分为Shuffle...
2017-02-23 10:53 回复了该问题Maven?项目吗,可以使用 <exclusions></exclusions>排除相关的冲突的包
2017-02-23 10:54 回复了该问题