1、《统计学》第五版,William Mendenhall/Terry Sincich,统计学入门的经典教材,中文版; 2、《Introduction to S...
2016-07-11 10:22 回复了该问题1,用大数据做网站日志分析(主要是流量); 2,订单分析; 3,客户分类(流失客户、潜在客户挖掘); 4,财务方面的费用分析 ……
2016-06-02 20:02 回复了该问题医疗大数据所使用的数据主要来自于电子病历,因此目前很多医院的信息化也会逐步往电子病历靠拢。 很多还没有采用电子病历系统的医院逐步的上这些系统。而大医院,例如包括...
2016-06-14 08:24 回复了该问题个人觉得像制造类偏传统行业的企业。 首先需要关注大数据,而是先开始养数据,规划公司的数据中心,数据一般会来自于企业的信息中心或信息化部门; 其二是可以考虑在...
2016-06-15 08:33 回复了该问题我是在读研期间直接开始研究和学习Hadoop的,如果你只是想运行Spark,那么不用去管Hadoop的具体配置,你的重点在Spark上,此时只需要有一个配置完好...
2016-06-21 09:13 回复了该问题一般加Hbase节点是直接作为HRegionServer的,直接加节点,更新HRegionServer中的节点相关信息,然后启动HRegionServer。 最...
2016-09-08 11:52 回复了该问题个人觉得云计算更多的是构建云环境,并且有些企业已经把云计算做到服务层面——存储、计算、服务、架构、安全等等,一应俱全。例如阿里云。 而大数据更多的关注的是数据,...
2016-07-11 10:05 回复了该问题两者的共同之处在于,底层都是Spark在执行查询语句; 不同之处在于,Hive on Spark是基于原有的Hive,将Hive的计算引擎从默认的MapRe...
2016-12-22 12:38 回复了该问题集群节点由几个就部署几个,并且要是2n+1个节点。 这是因为Zookeeper的选举机制,投票选举结果需要过半数才可通过,如果是2n个节点,则无法过半。
2016-06-14 19:53 回复了该问题题主所所的表是指Hive的表吗?如果是Hive表: 首先,这个txt文件必须具有与Hive表一致的格式结构,例如,字段分隔符、字段值(如果字段值与表中对应字段的...
2016-06-14 19:57 回复了该问题这里错误提示MR出问题,这只是表面错误,要Hive查询所对应的MapReduce作业的日志,才能知道真正的错误是什么。
2017-01-14 11:18 回复了该问题R语言,适合有统计学背景的小伙伴; Python,适合有计算机北京的小伙伴; 此外,还有浩彬老师推荐的SPSS Modeler,还有Weka等。 现在的数据...
2016-06-15 08:38 回复了该问题小于64M就存储文件的实际大小
2016-09-13 14:21 回复了该问题如果企业已经有传统的BI,可以将BI前期的ETL和数据处理分析等工作挪到Spark、Hadoop上,BI只需要通过某种方式使用Hadoop、Spark的结果输出...
2016-08-29 23:45 回复了该问题在hive-site.xml中的配置项中添加上UTF-8[code]<property> <name>javax.jdo.opt...
2016-07-13 17:46 回复了该问题