Maven?项目吗,可以使用 <exclusions></exclusions>排除相关的冲突的包
2017-02-23 10:54 回复了该问题从后往前遍历,遇到ShuffleDependency就标记注册Shffule且ShffuleDependency是划分Stage的依据,前半部分为Shuffle...
2017-02-23 10:53 回复了该问题我只给你说思想:SparkStreaming中会通过ZeroMQUtils启动一个Receiver(或者多个),从ZeroMq消费拉取数据到Spark内存,每一...
2017-02-21 14:55 回复了该问题excell文件上传HDFS目录。使用sparkstreaming的fileStream方法: streamingContext.fileStream(&qu...
2017-02-21 09:40 回复了该问题//在已经存在aaaa表的情况下,使用insert into insert into aaaa as select * from bbbb
2017-02-20 14:42 回复了该问题beeline -u "jdbc:hive2://172.16.18.87:10001/default;transportMode=http;http...
2017-02-20 14:40 回复了该问题[attach]29001[/attach] 这个用户就是你提交application的用户。不是代表连接Mysql的用户,是连接hive的用户
2017-02-20 11:36 回复了该问题使用hive命令,利用外部数据在hive中建立分区【使用data_date作为hive表的分区,alter table命令表示修改hive表,为该表增加一个以d...
2017-02-20 11:30 回复了该问题DataFrame内部是Row数据类型,可以只用getAs指定返回的类型。例如: row.getAs[Vector](0)
2017-02-20 11:25 回复了该问题可定有,不过推荐使用Scala代码,或者Python也可以。Java代码写起来太笨重了~
2017-02-20 11:22 回复了该问题Tachyon作为一个OFF_HEAP的实现,是作为BlockManager存储数据时的选择方案,Spark中抽象出了BlockManager根据Storage...
2017-02-20 11:21 回复了该问题首先你的理解有问题,每个通过spark-submit提交的任务都会新建Context.而这些Context需要和Master通信,请求资源,Master熟悉集群...
2017-02-19 22:59 回复了该问题groupByKey().map(data=>data._2.mkString(","))
2017-02-19 22:51 回复了该问题你的处理逻辑反了~正确的处理逻辑是广播大文件,与每个batchInterval数据做关联。。。。如果transformation中需要依赖外部的比较大的数据集,...
2017-02-19 22:48 回复了该问题