regan

run! run! run! happy runner! 我是奔跑的小米~

始于: 2017-02-15

四川省 成都市

发私信

30

总声望

12

次被推荐

0

粉丝

他的回答
排序:

0
投票

hive不建立在Spark的Master上,而是建立在worker上,后面存表可以吗?怎么指定hive的节点呢

可以啊,通过<name>hive.metastore.warehouse.dir</name>指定你hive仓库所在的路径,通常是hdf...

2017-04-03 21:02 回复了该问题
0
投票

一个spark项目local启动不了,求大神指导(win10+idea2017+spark-core-2.10-1.6.1)

权限问题,不要在idea环境里面调,打包在服务器上运行。或者在spark-shell调试好代码在粘贴到idea里面最后再打包上传服务器运行。

2017-04-05 17:18 回复了该问题
0
投票

spark streaming监控目录,程序有时会自动中断(如出现异常),如何启动重新运行

写个脚本判断是否有这个进程,如果没有重新启动~。当然如果你的SparkStreaming监控HDFS目录出现异常,说明的你程序本身的稳定性不好,最好做try c...

2017-02-28 08:40 回复了该问题
0
投票

spark中如何看有多少个并发的task啊

你可以通过rdd.partitions.size在程序里面查看,比较方便的是你可以在spark-shell中 val a = spark.range(1,10...

2017-04-06 10:42 回复了该问题
0
投票

有个问题请教一下:有一些数据是从互联网上爬取的,存放于hdfs中,想做一些数据统计或分析,后面有哪些方式实现?

做数据统计或分析选择就多了。可以用R、Python、java等语言,将数据从HDFS读取出来后做一些数理统计。如果要用大数据处理方案,选择还是比较多的,建议使用...

2017-06-16 10:13 回复了该问题
0
投票

能否在本地连接到spark集群进行计算,不用将程序打包到hdfs,求方案

当然可以,你本地作为Driver节点,任务分发到集群上去执行。程序中指定master就可以了

2017-02-28 08:42 回复了该问题
0
投票

spark从mysql读取数据,根据日期放在hive里面,产生了好多小文件,现在通过DataSet.coalesce()合并小文件,导致写入速度非常慢,各位大神有啥其他方法

你的目的是减少文件的个数,设置合理的分区数就可以了,例如设置分区数为5,对应5个文件。coalesce和repartitions都能设置分区数量,其底层原理有稍...

2017-08-30 10:23 回复了该问题
0
投票

请问一下,你们做hadoop mr的时候是在本地开发还是在虚拟机上开发的?

程序本地写,测试时候发到你的服务器上去跑。

2017-08-30 10:24 回复了该问题
0
投票

请问 要用rhadoop,sparkR包,必须在linux环境下的R吗?

那是肯定的啊,R代码需要R环境才能解析啊

2017-08-30 10:25 回复了该问题
0
投票

WordCount运行不起来

报错很明显,没有将jar包含,应该有个API设置jar包,好像是setJar,没有jar包怎么能执行喃?具体怎么设置自行百度吧,智能帮你到这里了

2017-03-01 10:29 回复了该问题
0
投票

进入hive输入任何命令报错

1.检查环境变量配置了吗? 2.检查安装包是否损坏,可以尝试重新 配置安装

2017-03-01 10:31 回复了该问题

改版

反馈