其实一直想说,数据分析或者数据挖掘是一个很深很广的范畴,如何更好地学习,完全要看你的个人兴趣和爱好。 你所提到的英文不好只好作罢,这明显就是自己给自己找理由。机...
2015-08-28 21:11 回复了该问题在回答你的问题之前,我想先啰嗦点概念性的东西。摘自我的收藏,原文出自什么地方已经找不到了,有知道的朋友可以给我留言 一、大数据概念 "大数据"...
2015-08-25 17:58 回复了该问题Python是无处不在的!工作中只要你想,肯定会用到。 比如:自动化脚本执行,部署,Python的爬虫等等。 如果平时不使用,再好的Python书籍也不成啊!所...
2016-04-07 10:39 回复了该问题在比较大的公司,比如BAT的公司,应该是hadoop的1.x版本比较多,原因如下: 1.比较早的接触了hadoop的版本,从hadoop 0.x不断地升级演练。...
2015-09-25 13:20 回复了该问题现在一提大数据基本上就是hadoop,而hadoop的工作又分这么几大类 1.Hadoop运维及其相关:主要是做Hadoop的集群安装,部署与维护等等。这类工作...
2015-09-25 10:46 回复了该问题一个码农的生涯基本上就是一个与调试相斗争的生涯,而日志又是调试的关键信息,尤其是线上环境,为啥要禁掉日志信息?如果你觉得产生的日志信息比较烦,输出到文件,定期删...
2016-05-02 09:20 回复了该问题1.可以通过自己写代码的形式导入 2.可以借助Sqoop来导入,如下 [code]sqoop import --connect jdbc:mysql://mys...
2015-10-11 09:23 回复了该问题如果你是安装apache hadoop,直接删除就可以了,如果你是采用的cloudra的hadoop版本,需要使用cloudra的卸载。 另外,记得删除$HAD...
2015-09-25 14:17 回复了该问题这个还是要看个人的喜欢: 1.报表工程师:利用HQL来生成各种各样的报表 2.大数据产品工程师:利用大数据来做一些产品。 3.ETL工程师:利用HQL来做ETL...
2015-09-25 14:07 回复了该问题简单来说,Hadoop是一种分布式存储和计算技术,其依赖于底层的分布式文件系统来存储数据和MapReduce框架来实现分布式计算。 NoSQL 是一套分布式...
2015-09-22 08:14 回复了该问题以下内容摘自我的收藏,如有朋友看到原创的地方,还请告知: 你问什么是大数据,没有人可以准确地回答你,他们只能给你举例子,说“你看,这就是大数据”,那我也来给...
2015-08-28 21:15 回复了该问题不是很清楚你的问题。远程的Excel可以通过FTP,FileSync,Web api等等很多种方式下载到本地,然后在本地处理。否则是没有办法远程打开Excel的...
2015-08-27 21:05 回复了该问题说到数据分析,这真的是一个非常非常大的范围和概念,在这里提几个方向: 1.趋势分析:对该商品在当月的销量做趋势分析,分析商品在当月每天的销量,分析销量随日期的变...
2015-08-27 20:54 回复了该问题拿到这个链接地址,重新发起一个请求,把这个页面重新抓取下来。 [code]# coding=utf-8 __author__ = 'MuRui' # 引入相关...
2016-06-13 09:53 回复了该问题1.加header agent了么? 2.关闭cookies了么? 3.不停地换IP地址了么? 搞这3个,就搞定了绝大多数的反爬的问题。 其他的还有直接模拟各类...
2016-04-18 10:54 回复了该问题