简单说下MySQL。在大数据量的情况下, 1.读写分离:数据库很大的瓶颈在于I/0,所以采用读写分离,减少I/O操作 2.分库分表:根据业务ID,比如UserI...
2015-09-25 10:39 回复了该问题个人不建议,原因如下: 1.hadoop最大的应用场景是分布式文件存储系统。 2.hadoop对大文件处理处理计算有优势。 3.报表系统讲究的实时,准实时性,页...
2015-11-23 08:13 回复了该问题详细描述下你的问题。没懂你的样例是什么意思。一般这个都是在SQL语句里面根据时间字段去拆分就可以了啊。
2015-08-26 16:04 回复了该问题这要看你的博客的规模,如果规模很小,那mongodb的一个collection就可以。既然使用了nosql,设计方式肯定与mysql是有区别的。 评论,标签,所...
2015-11-10 10:38 回复了该问题没有遇到过这种情况啊。按道理来讲,端口是开放的,每个客户端都是可以访问的。 你看一下是不是hadoop的权限问题。 在hdfs-site.xml文件里面追加 [...
2015-09-25 11:09 回复了该问题如果是服务的话,建议你生成一个token给客户端,然后客户端采用[url]http://127.0.0.1/image?token=11111111111111...
2015-09-25 11:14 回复了该问题不好意思。兄弟,你这个oracle是真没有遇到过。我个人的建议如下: 1.降低sqoop1.99.6版本到sqoop 1.99.3版本试一下。 2.运行sqoo...
2015-12-08 13:00 回复了该问题直接用SSRS做个报表,后面接各种维度,或者MDX语句,添加一个导出文件的功能。。然后告诉客户,你想怎么玩就怎么玩。。
2015-09-02 13:13 回复了该问题你指的这个kettle的内存是运行时候的内存设置么?可以参照下面的截图来设置 [attach]5688[/attach]
2015-09-10 10:56 回复了该问题给你看一张,我保存很久的图片,如果你觉得5年内,你能搞定,年薪百万不成问题 如果不能,安安静静的整点网络运维,CDN,路由器,SDN,网络部署,机房搭建等等。...
2015-09-25 11:21 回复了该问题推进一个第三方包:pandas 官方地址:[url]http://pandas.pydata.org/[/url] 看下官方文档:[url]http://pan...
2016-05-31 15:19 回复了该问题以数据行业里面的统计学来说,做数据分析和数据的,用R和Python的人更多。而做算法的话,用R,Python,Java,C++的都有。 至于从事什么行业,首先要...
2015-10-14 19:38 回复了该问题最近做公司的烂项目做到吐血,跟大数据没有大多的关系。很多技术点都扔了。回复下个人对这块的理解。 [narrow的第一个作用,我的理解是可以不用等上一次操作全部做...
2015-11-04 16:25 回复了该问题具体要看业务场景,其实hive的入门学习是很容易的,只要会点SQL,就可以应用Hive的简单操作。 但是如果要是深入学习的,hive的内容还是很多的 比如UDF...
2015-09-25 13:15 回复了该问题当面对多线程访问需求时,我们可以预先建立HConnection,参见以下代码:// Create a connection to the cluster. HC...
2015-11-04 16:34 回复了该问题