不安装没事,HBase自带了ZooKeeper了,启动HBase的时候默认会启动HBase自带的ZK
2016-09-09 10:26 回复了该问题以互联网为例的电商、社交、游戏、广告、推荐都用的比较多比较好。 目测除了某些传统行业还没有完全把数据价值发挥出来,其他行业都用上了吧。有些传统行业由于数据太小不...
2016-08-27 10:57 回复了该问题试试Fuse,可以把HDFS变成一个可直接像访问Linux文件系统中的一个目录。访问时不需要hdfs dfs,而是直接通过Linux的命令去访问,要提供给其他服...
2016-09-09 10:29 回复了该问题你做了NameNode的HA?
2016-09-09 10:29 回复了该问题有的,double months_between(date1, date2) 具体请参考Hive的官方手册:https://cwiki.apache.org/c...
2016-08-27 11:01 回复了该问题直接在Linux上用crontab定时调度就可以了。 可以关注大数据系列课程,目前正在进行的是Sqoop系列,未来几天应该会出Sqoop导入数据。
2016-09-29 16:23 回复了该问题可实现的一种方式是在Hive那一层做权限控制,或在HDFS层对目录做访问权限控制。 Kerberos等方案不是很清楚,没有时间经验。
2016-09-10 13:18 回复了该问题首先,可以在Spark中Java写函数,这样的程序在分布式Spark的环境下是并行计算的。 然后,在Spark中写Java,用到了什么就import什么,例如J...
2016-09-10 13:27 回复了该问题Hadoop主要以Java为主。 Spark主要以Scala为主,但是还有Python、R和Java都有较多的使用。
2016-07-11 10:10 回复了该问题楼主使用的是增量导入吗?或者是采用的导入到HDFS目录的方式,这种方式有可能导致的结果是数据直接附加(Append),这样昨天导入id为1-10的,今天照样会导...
2016-07-11 10:12 回复了该问题如果你的集群比较单一,只跑Spark,可以使用Spark Standalone,如果集群本身在做Spark之前就使用YARN之类的,那么可以根据需要去使用Spa...
2016-08-17 10:55 回复了该问题