天善智能-商业智能和大数据在线社区，用心创造价值

1

投票

有什么比较好的Hadoop作业调度平台吗？基于WEB 有比较友好的UI 集成了常用的操作

1.oozie 2.阿里的宙斯(zeus) 3.LinkedIn的Azkaban 以上三个都是基于web的工作流调度平台,都很优秀建议你可以选阿里的 ze...

2017-02-21 11:37 回复了该问题

1

投票

HBase行键的问题？

如果你一直向这个表里面插入数据，确实会让表底层数据进行split操作。创建表的时候默认会有一个region，如果这个region存储数据超过一个范围，则会进行...

2015-11-10 09:40 回复了该问题

1

投票

编译后的hadoop，master上 Hadoop jar提交作业，居然只在master本地执行，有谁遇到过么，可能原因？

检查core-site.xml 中 fs.default.name的value是否为hdfs://namenode ip:9000.如果配置为[url=http...

2015-11-10 09:49 回复了该问题

1

投票

请教下大家做竞争对手监控分析一般采用什么方法啊？

1.实时抓取数据系统利用java或Python建立爬虫系统现在很多的电商在价格等敏感数据方面都是用图片来保护。所以这个方面有点技术含量 2.针对抓取的数据做清...

2016-03-29 14:56 回复了该问题

0

投票

spark sql 能建索引吗？

可以试试DataFrame + dfZipWithIndex的组合方式。看看能不能提升些性能

2016-06-14 13:56 回复了该问题

0

投票

初涉storm 请教各位一个问题 storm停止命令是什么？比如怎么停nimbus supervisor

storm kill topology-name 如果想在每个节点都停止某个服务： sudo service supervisord stop

2016-06-28 13:05 回复了该问题

0

投票

我想请问一下 hive on spark 和sparkSQL on hive 那个更好或者就是一回事呢

本质上就一回事情。都是使用spark sql来访问hive的表和数据。在访问过程中有两种形式： 1.你需要进行spark代码编程，来实现对hive的访问。编...

2016-12-22 11:33 回复了该问题

0

投票

问下有人做过网站或者app或者游戏的用户分析吗？比如拉新数量，留存数量这类的

从你这个问题上，没看出是想问什么？是想学点这个方面经验，还是想认识些人呢？做移动互联网都会关注这几个指标：UV、拉新、注册转化率、留存等这些数据指标都是运营...

2016-06-28 13:14 回复了该问题

0

投票

spark部署选型问题

我们在实际使用过程中使用yarn来进行spark的任务调度。参考:https://spark.apache.org/docs/1.6.0/running-...

2016-06-28 13:41 回复了该问题

0

投票

在hadoop的mapreduce里面，假设我只有一个输入文件，我能根据这个输入文件的行数来分配map的数目吗？

可以重写一份inputformat的类并且在job的参数设置方面强制指定map个数，应该是可行的

2016-03-29 21:56 回复了该问题

0

投票

hadoop2.7.1版本自行编译了eclipse插件放到eclipse之后报了下边这个错各位大神帮看看

缺少jar包导致的。 hdfs.DFSConfigKeys 应该是hadoop-hdfs.jar里面的

2016-07-13 12:43 回复了该问题

0

投票

SSIS里的查找与合并联接分别哪些场景用比较合适？

1.查找这个动作确实消耗很多资源，除非是非常小的数据量，否则不建议在生产环境使用 2.合并连接一般是想合并多个机器上不同数据库下的数据。这样方便使用 SSI...

2016-03-08 10:22 回复了该问题

0

投票

在多台服务器上部署hadoop或者openstack,我只能一个一个节点来安装吗，有没有简单的方法？

如果是部署hadoop，那推荐使用CDH版本。其中的cloudera Manager是自动化管理，可自由部署hadoop节点。 openstack也是有操...

2016-02-22 11:39 回复了该问题

0

投票

在整个大数据行业里面。关于SQL语句、存储过程和SQL性能调优占的比重为多少？

在使用GreenPlum，teradata等MPP数据库集群的场景下，SQL语句、存储过程、调优方面是最主要的工作。占比约为3:2:5 除此之外，其他的大数...

2016-03-08 10:27 回复了该问题

0

投票

请问有人用了greenplum+hadoop的构架吗，分享下经验学习

我这使用了，有时间交流下

2016-01-28 08:54 回复了该问题

Bob

他关注的

他的粉丝

他的回答
排序:
时间 投票