1.oozie 2.阿里的宙斯(zeus) 3.LinkedIn的Azkaban 以上三个都是基于web的工作流调度平台,都很优秀 建议你可以选阿里的 ze...
2017-02-21 11:37 回复了该问题如果你一直向这个表里面插入数据,确实会让表底层数据进行split操作。 创建表的时候默认会有一个region,如果这个region存储数据超过一个范围,则会进行...
2015-11-10 09:40 回复了该问题检查core-site.xml 中 fs.default.name的value是否为hdfs://namenode ip:9000.如果配置为[url=http...
2015-11-10 09:49 回复了该问题1.实时抓取数据系统利用java或Python建立爬虫系统 现在很多的电商在价格等敏感数据方面都是用图片来保护。所以这个方面有点技术含量 2.针对抓取的数据做清...
2016-03-29 14:56 回复了该问题storm kill topology-name 如果想在每个节点都停止某个服务: sudo service supervisord stop
2016-06-28 13:05 回复了该问题本质上就一回事情。都是使用spark sql来访问hive的表和数据。 在访问过程中有两种形式: 1.你需要进行spark代码编程,来实现对hive的访问。 编...
2016-12-22 11:33 回复了该问题从你这个问题上,没看出是想问什么?是想学点这个方面经验,还是想认识些人呢? 做移动互联网都会关注这几个指标:UV、拉新、注册转化率、留存等 这些数据指标都是运营...
2016-06-28 13:14 回复了该问题我们在实际使用过程中使用yarn来进行spark的任务调度。 参考:https://spark.apache.org/docs/1.6.0/running-...
2016-06-28 13:41 回复了该问题可以重写一份inputformat的类 并且在job的参数设置方面强制指定map个数,应该是可行的
2016-03-29 21:56 回复了该问题缺少jar包导致的。 hdfs.DFSConfigKeys 应该是hadoop-hdfs.jar里面的
2016-07-13 12:43 回复了该问题1.查找这个动作确实消耗很多资源,除非是非常小的数据量,否则不建议在生产环境使用 2.合并连接一般是想合并多个机器上不同数据库下的数据。这样方便使用 SSI...
2016-03-08 10:22 回复了该问题如果是部署hadoop,那推荐使用CDH版本。 其中的cloudera Manager是自动化管理,可自由部署hadoop节点。 openstack也是有操...
2016-02-22 11:39 回复了该问题在使用GreenPlum,teradata等MPP数据库集群的场景下,SQL语句、存储过程、调优方面是最主要的工作。占比约为3:2:5 除此之外,其他的大数...
2016-03-08 10:27 回复了该问题