最简单的方式:使用oracled导出命令,导出数据为txt,采用hive外部表的形式加载txt 高级点的方式:采用sqoop导入到hive 再高级的方式:使用e...
2015-11-06 09:57 回复了该问题在ubuntu下的.kettle的目录是在用户目录下,可以执行一下命令[code]cd ~ ls -a [/code]这样你就能看到.kettle目录了。如果...
2015-08-28 14:12 回复了该问题两个长度相同,是不是类型不同?是否是sqlserver里面2字节的字符,在Oracle里面是4字节存放的?我对Oracle不是很熟悉。目测应该是此类的问题。
2015-08-28 14:17 回复了该问题这个问的好专业,我居然忘了ROI是干啥的了,投资回报率? 不管是什么,只要是页面,各种统计还是需要的。最不济的使用百度统计,GA等,至少知道H5的PV,UV等等...
2015-09-06 15:52 回复了该问题你把这个字符串前面加一个{,后面加一个},然后是不是感觉看起来很熟悉???对了,这就是JSON的字符串。 解析可以详见下面的代码[code]# -*- codi...
2016-06-17 16:16 回复了该问题确认下sql server2012是不是也是enterprise manager 另外,可以考虑SQL 备份,然后再导入的方式可以避免这种错误。
2015-09-28 13:02 回复了该问题mysql多大的数据量?没有搞个MySQL的集群? 真要实时性可以考虑监听mysql的bin LOG
2016-01-30 20:52 回复了该问题开源的ETL工具有kettle,也可以自己写脚本实现。 SSRS开源的pentaho,但是更多的是自己写报表展示,echarts,highcharts等等。 S...
2015-09-06 16:09 回复了该问题在执行上没有什么区别,但是在维护上有很大的区别。比如:我一个线上正在部署的kettle脚本,现在想由6个小时变更为3个小时,那你怎么办?使用schedule或者...
2015-08-28 14:26 回复了该问题其实你已经决定好了,只是想找个人确认一下。 个人建议还是贴合业务。技术变更太快,而且是开源技术,hadoop没出来几年,现在又开始搞spark。做技术就是比较辛...
2015-09-23 08:05 回复了该问题hadoop只是一个分布式文件系统,虽然是有map/reduce来做计算,但是处理的数据量是海量的,每执行一次数据处理,都要很长时间,因此它不适合来做可视化的数...
2015-09-23 08:09 回复了该问题一般涉及到的windows的没有必要采用分布式计算啊。核心计算软件为windows开发的也没有关系的,可以采用C/S的方式。 windows只有在Windows...
2015-11-25 08:56 回复了该问题最笨的方式:把《利用Python进行数据分析》这本书的每个内容都总结一下。 实践的话,可以参加各类的数据分析大赛,或者去leecode上刷代码。 回头我会写一个...
2016-04-08 10:09 回复了该问题jpivot可以看一下。很久没有关注了。 [url]https://github.com/airbnb/caravel 是一个Python的开源工具[/url]...
2016-04-08 11:31 回复了该问题个人整理了一下网上关于此类问题的答案,已经发到博客里面了,详细地址是:[url=http://www.flybi.net/blog/marey_marey111...
2015-12-23 19:57 回复了该问题