来看看这篇文章,希望对你有所帮助 大数据时代 传统统计学依然是数据分析的灵魂:http://www.flybi.net/blog/marey_marey111/...
2015-10-08 10:41 回复了该问题看一下官方文档:[url]https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration[/...
2015-11-30 15:56 回复了该问题limit的语法还有一个是limit offset,n 啊。。 limit 200,200表示的是取201到400的数据 limit 300,100表示的是取3...
2016-07-26 15:31 回复了该问题我们的实际业务中一致性要求的不是特别高,所以没太关注这方面的内容,不过可以给你提供两个思路。 1.从源头上做数据直接覆盖,比如利用Hive的分区,对于过去一个小...
2016-01-02 10:50 回复了该问题日志数据一般都是非结构化的,方便各种分析应用的调用。不知道你们的日志是哪一类的数据?交易类的?还是服务器日志。 服务器日志推荐使用splunk或者ELK。had...
2016-01-02 10:56 回复了该问题Kettle是一个ETL工具,用来处理转换数据。工具本身与数据量的大小无关。 针对T级别的数据一般单服务器存储数据的可能性比较小,会采用分布式文件系统的方式存储...
2015-08-27 14:13 回复了该问题如果你有足够的权限的话,可以开启数据监控服务,对源数据库做数据的监控。 SQLServer有CDC,MySQL可以监控bin log.然后通过处理监控到的数据日...
2015-08-27 14:20 回复了该问题写一个MDX的语句,类似这样的: [code]select {[Unit Sales]} on COLUMNS, TopCount( [Produ...
2016-08-30 17:08 回复了该问题这个问题一般产生有两种情况,一种是在分片集群的时候导致某些数据丢失,第二种是mongodb里面存的字段内容的编码格式与kettle的不兼容,由于Kettle是J...
2015-11-18 09:49 回复了该问题这个问题好难回答啊。只有报错信息,什么都没有。你先确认下Hbase是否能远程连接。
2015-08-27 17:58 回复了该问题python环境目前做的比较好的分词第三包是结巴分词 源码下载的地址:[url]https://github.com/fxsjy/jieba[/url] 全自动...
2016-06-02 11:27 回复了该问题这个问题比较比较难回答。主要还是在于你以后想做什么。目前与Hadoop相关的工作主要分为如下几大类: 1.Hadoop运维及其相关:主要是做Hadoop的集群安...
2015-09-05 09:31 回复了该问题