有一种曾用过的流程供参考: 1,数据接入,可以选择使用Flume或者Fuse或Sqoop等方式接入; 2,直接接入到数仓(Hive实现的)的ODS层,后续的数据...
2016-04-08 15:27 回复了该问题Spark2.0所支持的聚类算法请参考 https://spark.apache.org/docs/latest/ml-clustering.html
2016-09-21 15:48 回复了该问题collect是直接将执行collect的这个RDD是数据加载到内存中执行,如果数据量太大必然会卡死,所以唯一能建议的就是合理使用collect,不要滥用。
2016-04-08 15:36 回复了该问题看用途,如果只是为了实验,可以直接做Spark,文件采用本地读写就行。 但如果有Spark on Yarn等需要做,或者数据需要存储在HDFS,就需要在Hado...
2016-08-24 21:54 回复了该问题是的,也就是你在hive-site.xml里面配置的这两项: [code]<name>javax.jdo.option.ConnectionUser...
2016-07-20 15:00 回复了该问题那回过头去Jps查看时,进程还存在吗?有可能掉了,或者是Web端还没同步。 如果不是上述原因,则可能该节点进程出现错误挂掉了,希望提供错误日志以供分析
2016-10-18 15:14 回复了该问题额,只是为了存储吗?建议先把目标明确,然后选择比较适合的平台。Hadoop方面可以看一下大数据系列的视频 https://edu.hellobi.com/cou...
2016-09-08 12:33 回复了该问题资源有限时可访在一个集群,如楼上Bob大神说的,Spark对内存要求高,但是有些场景下,为了避免维护2个集群,会将Hadoop和Spark不属于一个集群上。看具...
2016-10-18 15:19 回复了该问题Apache Kylin可以做到维度建模。 原始数据以Hive表的形式存储,包括事实表和各个维度表,Hive也被称为是Hadoop之上的数据仓库,所以完全可...
2016-10-18 15:24 回复了该问题hive multi session ?你是指的打开多个类似于Hive cli吗? 如果是的话,那么在MetaStore存在Derby数据库中时,其本身就是单s...
2016-09-27 17:18 回复了该问题编译安装时自己根据Hive源码在自己的平台上编译Hive,bin包是官方以及编译好的包,下载直接加压添加环境变量就可以用的。 前者在自己的平台上可能其他组件例如...
2017-01-10 13:23 回复了该问题months_between()等函数,还有其他的实现方式,例如get到两个日期的月份,做减法。。。 具体的参考一下Hive手册中的Date Function ...
2016-08-27 11:00 回复了该问题开源的功能如果能够支持现有需求,建议直接用开源的,现在开源社区比较活跃(遇到问题解决速度会比较快),并且Free 商用的有很多,例如楼上提到的HortonWor...
2016-08-17 10:59 回复了该问题元数据存MySQL,不是实际的Hive数据存MySQL,元数据是指的表名、Owner、表创建时间、表所包含的列名,Hive的元数据存储在MySQL中,而实际数据...
2016-10-08 10:55 回复了该问题大数据很多不同方向,不同方向侧重点不同,例如数据挖掘与机器学习,侧重于算法;大数据开发,侧重于数据处理和开发;数据分析,侧重于SQL等。
2016-11-28 09:12 回复了该问题