MarsJ

大数据玩家~DS

始于: 2015-10-13

广东省 广州市

发私信

1580

总声望

216

次被推荐

0

粉丝

他的回答
排序:

1
投票

数据挖掘的工具比较多,对初学者来说,选哪个比较合适?

R语言,适合有统计学背景的小伙伴; Python,适合有计算机北京的小伙伴; 此外,还有浩彬老师推荐的SPSS Modeler,还有Weka等。   现在的数据...

2016-06-15 08:38 回复了该问题
2
投票

大数据时代的企业管理模式是怎样的?尤其是制造类企业

个人觉得像制造类偏传统行业的企业。   首先需要关注大数据,而是先开始养数据,规划公司的数据中心,数据一般会来自于企业的信息中心或信息化部门; 其二是可以考虑在...

2016-06-15 08:33 回复了该问题
1
投票

请问怎么把hadoop的hdfs上的txt文件里面的数据写到我建好的一张表里面?

题主所所的表是指Hive的表吗?如果是Hive表: 首先,这个txt文件必须具有与Hive表一致的格式结构,例如,字段分隔符、字段值(如果字段值与表中对应字段的...

2016-06-14 19:57 回复了该问题
1
投票

各位的集群中一般zookeeper节点一般部署几个?

集群节点由几个就部署几个,并且要是2n+1个节点。 这是因为Zookeeper的选举机制,投票选举结果需要过半数才可通过,如果是2n个节点,则无法过半。

2016-06-14 19:53 回复了该问题
3
投票

有做医疗大数据的童鞋吗?一般这种数据都来源哪里?医疗机构,医药医疗器械公司?相关仓库?数据怎样整合?

医疗大数据所使用的数据主要来自于电子病历,因此目前很多医院的信息化也会逐步往电子病历靠拢。 很多还没有采用电子病历系统的医院逐步的上这些系统。而大医院,例如包括...

2016-06-14 08:24 回复了该问题
0
投票

mapreduce将wordcount结果写入hbase,但是和hdfs中的raw不一致,什么情况?

不知题主说的raw是不是HDFS中的原始数据,HDFS如果是文本的话,在HDFS查看到的就是文本,HBase存储机制为二进制,在HBase scan查询到的都是...

2016-06-13 10:56 回复了该问题
1
投票

Hadoop2有什么好的性能分析工具,求推荐

有使用Ganglia+Nagios的组合,这俩都是做监控的,Ganglia对服务器性能做监控,Nagios可以加上对Hadoop、HBase等的具体服务进程(如...

2016-06-06 10:35 回复了该问题
0
投票

spark如何实现key value对换?

这样反转就行了:yourRdd.map(x => (x._2,x._1)) 如果后面需要在反转回去,也是一样的道理。

2016-06-06 10:30 回复了该问题
1
投票

在一台没装hadoop的机器的文件,怎么传到hdfs里。有哪些大神指导下

可以不装Hadoop,但是必须要有Hadoop的相关包(例如执行hdfs dfs所用),否则如何使用hdfs dfs -ls等命令呢? 所以建议拷贝一份Hado...

2016-06-06 10:27 回复了该问题
3
投票

大数据 有在企业内部 bi等系统的应用场景吗?

1,用大数据做网站日志分析(主要是流量); 2,订单分析; 3,客户分类(流失客户、潜在客户挖掘); 4,财务方面的费用分析 ……

2016-06-02 20:02 回复了该问题
0
投票

大家 oracle里 的number(带小数点,不带小数点)类型 到hive里都映射成什么类型了? 要考虑精度问题

我一般是根据那个类型在Oracle中的含义或者大小来定的。   大多数情况下,有小数点的会按照number的精度映射成float或double,无小数点的情况下...

2016-06-02 09:39 回复了该问题
0
投票

运行一个mr作业往hbase里写数据,中途人为停止,然后有一个名为RunJar 的进程,通过kill -9 进程号,此进程已经看不到了,但是hbase里的写数据并没停止,还继续在写,这是怎么回事

确定该RunJar进程就是在往HBase里写数据的进程吗?MR作业号可以在配置的8088端口页面看到的。  

2016-06-02 09:32 回复了该问题
0
投票

现在的工作中很少写mapreduce,但是我想自己提高一下写mapreduce的能力,请问有什么方法吗?

如果很少写,那就得写,找机会写。   例如,我的工作中如果以写Hive QL为主,那么我可以写MR来实现这些Hive QL的功能 就是这样去找机会练。。。

2016-06-02 09:30 回复了该问题
0
投票

有没有用大数据的技术 hadoop hive这类来出报表进行数据监控的?

我把你的问题理解成是能进行数据监控、并且以报表形式展现的工具。   你可以看一下[b]Ambari[/b],能对大数据平台的多个组件服务(注意,不是大数据平台的...

2016-06-02 09:28 回复了该问题
0
投票

请教一个问题:yarn 能限制用户层spark任务使用的资源吗?比如核、cpu

用户层面的设定?代码中可以设定的吧 让不同的用户在代码里设定这些参数,但是不知道你是在Spark shell还是在Application中

2016-05-31 11:00 回复了该问题

改版

反馈