天善智能-商业智能和大数据在线社区，用心创造价值

1

投票

如何用 hadoop/hive 做日志分析系统？

有一种曾用过的流程供参考： 1，数据接入，可以选择使用Flume或者Fuse或Sqoop等方式接入； 2，直接接入到数仓（Hive实现的）的ODS层，后续的数据...

2016-04-08 15:27 回复了该问题

1

投票

Hi，各位早。请问spark上有模糊C均值算法或者任意的模糊聚类算法么

Spark2.0所支持的聚类算法请参考 https://spark.apache.org/docs/latest/ml-clustering.html

2016-09-21 15:48 回复了该问题

1

投票

spark collect()，当数据量比较大时，卡死怎么解决？

collect是直接将执行collect的这个RDD是数据加载到内存中执行，如果数据量太大必然会卡死，所以唯一能建议的就是合理使用collect，不要滥用。

2016-04-08 15:36 回复了该问题

1

投票

spark平台直接搭建比较好还是在Hadoop基础上比较好

看用途，如果只是为了实验，可以直接做Spark，文件采用本地读写就行。但如果有Spark on Yarn等需要做，或者数据需要存储在HDFS，就需要在Hado...

2016-08-24 21:54 回复了该问题

1

投票

咨询个hive的问题啊， hive jdbc 需要用户名和密码，这个用户名和密码是mysql元数据库的用户名和密码么 ‘’

是的，也就是你在hive-site.xml里面配置的这两项： [code]<name>javax.jdo.option.ConnectionUser...

2016-07-20 15:00 回复了该问题

1

投票

大神有没有遇见过Hadoop某个节点jps查看已经启动了，但是去页面看活跃节点时候没有该节点

那回过头去Jps查看时，进程还存在吗？有可能掉了，或者是Web端还没同步。如果不是上述原因，则可能该节点进程出现错误挂掉了，希望提供错误日志以供分析

2016-10-18 15:14 回复了该问题

1

投票

求问群里各位大神，老师让我们弄一个数据存在云服务器上，可以实现上传图片，搜索图片功能的平台。我最近才开始接触hadoop，现在还没有头绪。求大神指点一下方向，该学习些准备些什么

额，只是为了存储吗？建议先把目标明确，然后选择比较适合的平台。Hadoop方面可以看一下大数据系列的视频 https://edu.hellobi.com/cou...

2016-09-08 12:33 回复了该问题

1

投票

求问个问题大家部署spark集群的时候是和hadoop用的相同的机器还是分离开的

资源有限时可访在一个集群，如楼上Bob大神说的，Spark对内存要求高，但是有些场景下，为了避免维护2个集群，会将Hadoop和Spark不属于一个集群上。看具...

2016-10-18 15:19 回复了该问题

1

投票

维度模型在hadoop中怎么实现？

Apache Kylin可以做到维度建模。原始数据以Hive表的形式存储，包括事实表和各个维度表，Hive也被称为是Hadoop之上的数据仓库，所以完全可...

2016-10-18 15:24 回复了该问题

1

投票

求助：谁有hive multi session的配置文档，请指教！

hive multi session ?你是指的打开多个类似于Hive cli吗？如果是的话，那么在MetaStore存在Derby数据库中时，其本身就是单s...

2016-09-27 17:18 回复了该问题

1

投票

hive的编译安装和bin安装有什么区别啊

编译安装时自己根据Hive源码在自己的平台上编译Hive，bin包是官方以及编译好的包，下载直接加压添加环境变量就可以用的。前者在自己的平台上可能其他组件例如...

2017-01-10 13:23 回复了该问题

1

投票

问下大神,怎么在hive里面计算两个日期的月份差

months_between()等函数，还有其他的实现方式，例如get到两个日期的月份，做减法。。。具体的参考一下Hive手册中的Date Function ...

2016-08-27 11:00 回复了该问题

1

投票

请教大师： hadoop 开源的和商用的，有很大区别吗？商用的推荐哪个？

开源的功能如果能够支持现有需求，建议直接用开源的，现在开源社区比较活跃（遇到问题解决速度会比较快），并且Free 商用的有很多，例如楼上提到的HortonWor...

2016-08-17 10:59 回复了该问题

1

投票

我想问个问题，既然基于hive模式做查询，元数据以mysql方式，那做集群和单机又有什么区别呢？存储处理不都是以关系型数据库？又怎么提现分布式的优势？

元数据存MySQL，不是实际的Hive数据存MySQL，元数据是指的表名、Owner、表创建时间、表所包含的列名，Hive的元数据存储在MySQL中，而实际数据...

2016-10-08 10:55 回复了该问题

0

投票

问下大数据面试一般都问什么啊

大数据很多不同方向，不同方向侧重点不同，例如数据挖掘与机器学习，侧重于算法；大数据开发，侧重于数据处理和开发；数据分析，侧重于SQL等。

2016-11-28 09:12 回复了该问题

MarsJ

他关注的

他的粉丝

他的回答
排序:
时间 投票