regan

run! run! run! happy runner! 我是奔跑的小米~

始于: 2017-02-15

四川省 成都市

发私信

30

总声望

12

次被推荐

0

粉丝

他的回答
排序:

0
投票

spark 引用 和 es 引用 guava版本有冲突,怎么有好的解决?

Maven?项目吗,可以使用 <exclusions></exclusions>排除相关的冲突的包

2017-02-23 10:54 回复了该问题
0
投票

如何设置spark中每个stage的task数目

从后往前遍历,遇到ShuffleDependency就标记注册Shffule且ShffuleDependency是划分Stage的依据,前半部分为Shuffle...

2017-02-23 10:53 回复了该问题
0
投票

spark streaming支持zeromq消息源,看了官方文档只是提供一个Class ZeroMQUtils的介绍,不是很明白,有没有大神有这方面的经验?

我只给你说思想:SparkStreaming中会通过ZeroMQUtils启动一个Receiver(或者多个),从ZeroMq消费拉取数据到Spark内存,每一...

2017-02-21 14:55 回复了该问题
1
投票

sparkstreaming如何实时处理excl文件?

excell文件上传HDFS目录。使用sparkstreaming的fileStream方法: streamingContext.fileStream(&qu...

2017-02-21 09:40 回复了该问题
0
投票

请问spark sql 是否支持对hive 外表的插入操作

//在已经存在aaaa表的情况下,使用insert into insert into aaaa as select * from bbbb  

2017-02-20 14:42 回复了该问题
0
投票

请问哪位有没有用spark 读取hbase 或者hive 进行sql 操作的代码示例

beeline -u "jdbc:hive2://172.16.18.87:10001/default;transportMode=http;http...

2017-02-20 14:40 回复了该问题
0
投票

使用beeline问题

[attach]29001[/attach] 这个用户就是你提交application的用户。不是代表连接Mysql的用户,是连接hive的用户

2017-02-20 11:36 回复了该问题
1
投票

请问大神 hive没有有办法将现有表,修改为分区表吗

使用hive命令,利用外部数据在hive中建立分区【使用data_date作为hive表的分区,alter table命令表示修改hive表,为该表增加一个以d...

2017-02-20 11:30 回复了该问题
0
投票

spark怎么实现两个矩阵的乘法操作 哪位大神知道

看看有没有类似multiplication的方法,没有就自己实现吧,很简单的

2017-02-20 11:27 回复了该问题
0
投票

Spark Dataframe中一列的值属性为Vector,如何取出它的值?

DataFrame内部是Row数据类型,可以只用getAs指定返回的类型。例如: row.getAs[Vector](0)

2017-02-20 11:25 回复了该问题
0
投票

有没有java语言中的spark graphx代码实例?版本:spark 2.0.2

可定有,不过推荐使用Scala代码,或者Python也可以。Java代码写起来太笨重了~

2017-02-20 11:22 回复了该问题
0
投票

spark是如何与Tachyon结合的,该如何学习这部分?

Tachyon作为一个OFF_HEAP的实现,是作为BlockManager存储数据时的选择方案,Spark中抽象出了BlockManager根据Storage...

2017-02-20 11:21 回复了该问题
0
投票

Spark job server context 管理问题

首先你的理解有问题,每个通过spark-submit提交的任务都会新建Context.而这些Context需要和Master通信,请求资源,Master熟悉集群...

2017-02-19 22:59 回复了该问题
0
投票

谁用spark实现过这样的功能,就是根据分组字段,把同一组的字符串拼接成一个字符串。

groupByKey().map(data=>data._2.mkString(","))  

2017-02-19 22:51 回复了该问题
0
投票

怎么对spark streaming 的每个batch 进行broadcast

你的处理逻辑反了~正确的处理逻辑是广播大文件,与每个batchInterval数据做关联。。。。如果transformation中需要依赖外部的比较大的数据集,...

2017-02-19 22:48 回复了该问题

改版

反馈