Bob

同程旅游大数据+BI 架构师

始于: 2015-09-29

江苏省 苏州市

发私信

250

总声望

142

次被推荐

0

粉丝

他的回答
排序:

1
投票

有什么比较好的Hadoop作业调度平台吗?基于WEB 有比较友好的UI 集成了常用的操作

1.oozie 2.阿里的宙斯(zeus) 3.LinkedIn的Azkaban 以上三个都是基于web的工作流调度平台,都很优秀   建议你可以选阿里的 ze...

2017-02-21 11:37 回复了该问题
1
投票

HBase行键的问题?

如果你一直向这个表里面插入数据,确实会让表底层数据进行split操作。 创建表的时候默认会有一个region,如果这个region存储数据超过一个范围,则会进行...

2015-11-10 09:40 回复了该问题
1
投票

编译后的hadoop,master上 Hadoop jar提交作业,居然只在master本地执行,有谁遇到过么,可能原因?

检查core-site.xml 中 fs.default.name的value是否为hdfs://namenode ip:9000.如果配置为[url=http...

2015-11-10 09:49 回复了该问题
1
投票

请教下 大家做竞争对手监控分析一般采用什么方法啊?

1.实时抓取数据系统利用java或Python建立爬虫系统 现在很多的电商在价格等敏感数据方面都是用图片来保护。所以这个方面有点技术含量 2.针对抓取的数据做清...

2016-03-29 14:56 回复了该问题
0
投票

spark sql 能建索引吗?

可以试试DataFrame + dfZipWithIndex的组合方式。看看能不能提升些性能

2016-06-14 13:56 回复了该问题
0
投票

初涉storm 请教各位一个问题 storm停止命令是什么?比如怎么停nimbus supervisor

storm kill topology-name 如果想在每个节点都停止某个服务: sudo service supervisord stop  

2016-06-28 13:05 回复了该问题
0
投票

我想请问一下 hive on spark 和sparkSQL on hive 那个更好 或者就是一回事呢

本质上就一回事情。都是使用spark sql来访问hive的表和数据。 在访问过程中有两种形式: 1.你需要进行spark代码编程,来实现对hive的访问。 编...

2016-12-22 11:33 回复了该问题
0
投票

问下有人做过网站或者app或者游戏的用户分析吗?比如拉新数量,留存数量这类的

从你这个问题上,没看出是想问什么?是想学点这个方面经验,还是想认识些人呢? 做移动互联网都会关注这几个指标:UV、拉新、注册转化率、留存等 这些数据指标都是运营...

2016-06-28 13:14 回复了该问题
0
投票

spark部署选型问题

我们在实际使用过程中使用yarn来进行spark的任务调度。   参考:https://spark.apache.org/docs/1.6.0/running-...

2016-06-28 13:41 回复了该问题
0
投票

在hadoop的mapreduce里面,假设我只有一个输入文件,我能根据这个输入文件的行数来分配map的数目吗?

可以重写一份inputformat的类 并且在job的参数设置方面强制指定map个数,应该是可行的

2016-03-29 21:56 回复了该问题
0
投票

hadoop2.7.1版本 自行编译了eclipse插件 放到eclipse之后 报了下边这个错 各位大神帮看看

缺少jar包导致的。 hdfs.DFSConfigKeys 应该是hadoop-hdfs.jar里面的

2016-07-13 12:43 回复了该问题
0
投票

SSIS里的查找与合并联接分别哪些场景用比较合适?

1.查找这个动作确实消耗很多资源,除非是非常小的数据量,否则不建议在生产环境使用 2.合并连接一般是想合并多个机器上不同数据库下的数据。这样方便使用   SSI...

2016-03-08 10:22 回复了该问题
0
投票

在多台服务器上部署hadoop或者openstack,我只能一个一个节点来安装吗,有没有简单的方法?

如果是部署hadoop,那推荐使用CDH版本。 其中的cloudera Manager是自动化管理,可自由部署hadoop节点。   openstack也是有操...

2016-02-22 11:39 回复了该问题
0
投票

在整个大数据行业里面。关于SQL语句、存储过程和SQL性能调优占的比重为多少?

在使用GreenPlum,teradata等MPP数据库集群的场景下,SQL语句、存储过程、调优方面是最主要的工作。占比约为3:2:5   除此之外,其他的大数...

2016-03-08 10:27 回复了该问题
0
投票

请问有人用了greenplum+hadoop的构架吗,分享下经验学习

我这使用了,有时间交流下

2016-01-28 08:54 回复了该问题

改版

反馈