MarsJ

大数据玩家~DS

始于: 2015-10-13

广东省 广州市

发私信

1580

总声望

216

次被推荐

0

粉丝

他的回答
排序:

1
投票

hdfsbolt(storm写hdfs)访问集群名错误,访问某个namenode就ok,为啥?

withFsUrl()中的参数就是HDFS集群的位置,例如你的集群在192.168.130.1,那么就应该是hdfs://192.168.130.1:portn...

2016-09-19 14:30 回复了该问题
0
投票

请教一下,为何ssh连接对方电脑时就会出现known_hosts以前从没出现过。

什么情况下链接的?一般来说ssh有一对公私密钥对,需要把公钥给对方,才能免密码连接到对方的机器上去

2016-09-18 19:29 回复了该问题
0
投票

小白 求助下大家 我装了个cloudera quick start vm 然后jps 显示只有Jps进程,我在/bin和sbin/文件下都没有找到start-dfs.sh start-yarn.sh之类的文件请问能怎么启动啊?

没有用过cloudera quick start vm,想必是一个预装了cloudera套件的虚拟机吧?可以执行操作系统的查找,例如CentOS下的find /...

2016-09-18 19:28 回复了该问题
0
投票

mapreduce任务跑完之后找不到job历史信息

jobhistory启动了吗

2016-09-18 19:27 回复了该问题
0
投票

谁做过spark项目,在生产上,spark作业如何配置调度作业,并提交作业到集群

提交作业到集群是spark-submit,如果是要配置Spark的作业进行调度的话,可以找一些现有的开源调度工具,但是如果场景教简单,可以直接写在Linux的c...

2016-09-14 10:37 回复了该问题
0
投票

刚才配置了一下hive但是启动显示权限不够是怎么回事?

看一下bin下面的hive脚本文件有没有可执行权限,就是rwx中的x

2016-09-13 14:18 回复了该问题
0
投票

当要处理的文件远大于内存时,spark是如何解决的?此时会比mapreduce快吗?如何保证的?

Spark有存储级别(缓存、内存、磁盘),当数据量达到内存大小的时候,会开始根据一些内存调度算法进行溢出到磁盘的操作。 仍然是比MR快的

2016-09-13 09:49 回复了该问题
0
投票

运行start-all.sh后,jps查看数据节点没有datanode,查看datanode日志文件,里面报java.net.BindException Port in use: localhost:0

这种情况多可以看一下是否防火墙和SeLinux是否关闭。一般来说可以解决问题。不行的话再私信我帮你解决

2016-09-13 09:48 回复了该问题
0
投票

哪位大神知道MR连接mysql驱动包的问题怎么解决

1、是否添加MySQL的jdbc的包在正确的位置 2、包的版本是否正确

2016-09-13 09:47 回复了该问题
0
投票

有没有hadoop的资料分享下,我刚开始学hadoop,单机版的程序会写,改成mapreduce函数就不会写了,有没有相关的资料,学习下

hadoop的程序单机版不也是MR吗?天善学院中有一位老师开了MapReduce的课程,可以看一下。 另外,可以跟着Hadoop官方网站的知道去写程序,像Had...

2016-09-13 09:46 回复了该问题
0
投票

500W左右的文件,要解析成有用的数据,用什么保存,分析工具比较合适?需要对保存后的数据过滤运算,可以在1~2秒内得到转换结果

Spark应该可以做到,也要看配置。其中的filter过滤算子可以完成过滤运算,保存直接用saveAs...去存。试试

2016-09-12 10:15 回复了该问题
0
投票

可以请教一下么,ssh免密码能成功,启动hadoop还是要输入密码,这是什么原因呢?

ssh是用的localhost还是定义的主机名? hadoop中slave你配置的是IP地址还是主机名localhost或者主机名?  

2016-09-12 10:14 回复了该问题
0
投票

请教各位大神,JAVA语言,自己写个函数,在spark程序中可以调用吗,如果能的话,用的是org.apache.spark.api.java.function这个接口来实现吗?能否提供具体的样例呢?这样实现的函数是并行计算的吗?

首先,可以在Spark中Java写函数,这样的程序在分布式Spark的环境下是并行计算的。 然后,在Spark中写Java,用到了什么就import什么,例如J...

2016-09-10 13:27 回复了该问题
0
投票

spark如何做权限控制,让不同的用户看到不同的表?

可实现的一种方式是在Hive那一层做权限控制,或在HDFS层对目录做访问权限控制。 Kerberos等方案不是很清楚,没有时间经验。

2016-09-10 13:18 回复了该问题

改版

反馈