regan

run! run! run! happy runner! 我是奔跑的小米~

始于: 2017-02-15

四川省 成都市

发私信

30

总声望

12

次被推荐

0

粉丝

他的回答
排序:

1
投票

spark中如何看有多少个并发的task啊

看有多少个partition就有多少个并发的任务,webui也可以看 [attach]34913[/attach]  

2017-04-05 10:00 回复了该问题
0
投票

hive不建立在Spark的Master上,而是建立在worker上,后面存表可以吗?怎么指定hive的节点呢

可以啊,通过<name>hive.metastore.warehouse.dir</name>指定你hive仓库所在的路径,通常是hdf...

2017-04-03 21:02 回复了该问题
0
投票

hive的启动问题。

MetaException(message:Could not connect to meta store using any of the URIs prov...

2017-03-31 11:01 回复了该问题
0
投票

做大数据大家比较关心哪个方面?优先保证hadoop整个集群的正常运转?快速开发map/reduce?保证数据分析的速度?保证数据分析的准确性?

hadoop平台是基础,数据准确性是产品核心,计算速度是重点,快速开发是其次。

2017-03-29 20:33 回复了该问题
0
投票

IntelliJ IDEA安装scala插件问题

1.机器安装scala的sdk没有? 2. 安装好scala插件重启ide没有?

2017-03-29 15:46 回复了该问题
0
投票

spark 一条数据格式为A:b,c,d 变成 (k,v) (A,b)(A,c)(A,d)

val a = "A:b,c,d" val b = a.split(":") val c = b{0} val d = ...

2017-03-27 18:18 回复了该问题
1
投票

现阶段,请问一下 hadoop和spark分别用什么版本合适呢?

Spark用最新版2.1.x,hadoop2.7以上吧

2017-03-24 18:41 回复了该问题
0
投票

请问谁可以提供Hadoop练习数据集?

[url]http://archive.ics.uci.edu/ml/[/url] 这上面有300来个开放的数据集

2017-03-23 15:14 回复了该问题
0
投票

利用sqoop从mysql导入数据到hdfs出错?

看一下你的sqoop脚本喃

2017-03-19 21:16 回复了该问题
0
投票

请问用户画像分析,是离线数据Mapreduce,还是需要用到MLlib

看你要做什么,如果只是刻画用户的画像,做一些简单的统计并不需要用到mllib,但让做离线大数据处理用mapreduce计算模型推荐首选spark做计算引擎,原因...

2017-03-17 14:57 回复了该问题
1
投票

请教大家一个问题 hive版本1.0 分区有没有上限呢 是不是越多越好

并不是越多越好,你可以这样理解,hive的分区只是一个map的key,很显然要根据key寻找value,其时间复杂度为O(n),key越多遍历找key的时间越长...

2017-03-17 14:53 回复了该问题
1
投票

请教,用sqoop 把mysql的数据导入到hive 总有一条重复数据。怎么破?

用下面的方式试一试~IP=$1 PORT=$2 DB=$3 USERNAME=$4 PASSWORD=$5 TABLE=$6 HIVE_DB=$7 HIVE_T...

2017-03-17 10:01 回复了该问题
0
投票

Scala中map(r=>(r(0),r(1))),与map(r=>(r._1,r._2))有什么不同呢?什么场景用呢?

区别在于第一个map中的r是数组类型,通过圆括号加索引的形式取得数组中的元素,第二个map中的r是tuple,通过下划线_1,_2的方式取得tuple对应位置的...

2017-03-15 22:43 回复了该问题
0
投票

r语言版的有直接的函数可以用来预测?

最简单的线性回归model<-lm(y~x,data),得到一个线性模型,使用predict(model,other_data)方法在model模型上预测...

2017-03-15 17:36 回复了该问题

改版

反馈