MarsJ

大数据玩家~DS

始于: 2015-10-13

广东省 广州市

发私信

1580

总声望

216

次被推荐

0

粉丝

他的回答
排序:

1
投票

如何用 hadoop/hive 做日志分析系统?

有一种曾用过的流程供参考: 1,数据接入,可以选择使用Flume或者Fuse或Sqoop等方式接入; 2,直接接入到数仓(Hive实现的)的ODS层,后续的数据...

2016-04-08 15:27 回复了该问题
1
投票

Hi,各位早。请问spark上有模糊C均值算法或者任意的模糊聚类算法么

Spark2.0所支持的聚类算法请参考 https://spark.apache.org/docs/latest/ml-clustering.html

2016-09-21 15:48 回复了该问题
1
投票

spark collect(),当数据量比较大时,卡死怎么解决?

collect是直接将执行collect的这个RDD是数据加载到内存中执行,如果数据量太大必然会卡死,所以唯一能建议的就是合理使用collect,不要滥用。

2016-04-08 15:36 回复了该问题
1
投票

spark平台直接搭建比较好 还是在Hadoop基础上比较好

看用途,如果只是为了实验,可以直接做Spark,文件采用本地读写就行。 但如果有Spark on Yarn等需要做,或者数据需要存储在HDFS,就需要在Hado...

2016-08-24 21:54 回复了该问题
1
投票

咨询个hive的问题啊, hive jdbc 需要用户名和密码,这个用户名和密码是mysql元数据库的用户名和密码么 ‘’

是的,也就是你在hive-site.xml里面配置的这两项: [code]<name>javax.jdo.option.ConnectionUser...

2016-07-20 15:00 回复了该问题
1
投票

大神有没有遇见过Hadoop某个节点jps查看已经启动了,但是去页面看活跃节点时候没有该节点

那回过头去Jps查看时,进程还存在吗?有可能掉了,或者是Web端还没同步。 如果不是上述原因,则可能该节点进程出现错误挂掉了,希望提供错误日志以供分析

2016-10-18 15:14 回复了该问题
1
投票

求问群里各位大神,老师让我们弄一个数据存在云服务器上,可以实现上传图片,搜索图片功能的平台。我最近才开始接触hadoop,现在还没有头绪。求大神指点一下方向,该学习些准备些什么

额,只是为了存储吗?建议先把目标明确,然后选择比较适合的平台。Hadoop方面可以看一下大数据系列的视频 https://edu.hellobi.com/cou...

2016-09-08 12:33 回复了该问题
1
投票

求问个问题 大家部署spark集群的时候是和hadoop用的相同的机器 还是 分离开的

资源有限时可访在一个集群,如楼上Bob大神说的,Spark对内存要求高,但是有些场景下,为了避免维护2个集群,会将Hadoop和Spark不属于一个集群上。看具...

2016-10-18 15:19 回复了该问题
1
投票

维度模型在hadoop中怎么实现?

Apache Kylin可以做到维度建模。   原始数据以Hive表的形式存储,包括事实表和各个维度表,Hive也被称为是Hadoop之上的数据仓库,所以完全可...

2016-10-18 15:24 回复了该问题
1
投票

求助:谁有hive multi session的配置文档,请指教!

hive multi session ?你是指的打开多个类似于Hive cli吗? 如果是的话,那么在MetaStore存在Derby数据库中时,其本身就是单s...

2016-09-27 17:18 回复了该问题
1
投票

hive的编译安装和bin安装有什么区别啊

编译安装时自己根据Hive源码在自己的平台上编译Hive,bin包是官方以及编译好的包,下载直接加压添加环境变量就可以用的。 前者在自己的平台上可能其他组件例如...

2017-01-10 13:23 回复了该问题
1
投票

问下大神,怎么在hive里面计算两个日期的月份差

months_between()等函数,还有其他的实现方式,例如get到两个日期的月份,做减法。。。 具体的参考一下Hive手册中的Date Function ...

2016-08-27 11:00 回复了该问题
1
投票

请教大师: hadoop 开源的和商用的,有很大区别吗? 商用的推荐哪个?

开源的功能如果能够支持现有需求,建议直接用开源的,现在开源社区比较活跃(遇到问题解决速度会比较快),并且Free 商用的有很多,例如楼上提到的HortonWor...

2016-08-17 10:59 回复了该问题
1
投票

我想问个问题,既然基于hive模式做查询,元数据以mysql方式,那做集群和单机又有什么区别呢?存储处理不都是以关系型数据库?又怎么提现分布式的优势?

元数据存MySQL,不是实际的Hive数据存MySQL,元数据是指的表名、Owner、表创建时间、表所包含的列名,Hive的元数据存储在MySQL中,而实际数据...

2016-10-08 10:55 回复了该问题
0
投票

问下大数据面试一般都问什么啊

大数据很多不同方向,不同方向侧重点不同,例如数据挖掘与机器学习,侧重于算法;大数据开发,侧重于数据处理和开发;数据分析,侧重于SQL等。

2016-11-28 09:12 回复了该问题

改版

反馈