MarsJ

大数据玩家~DS

始于: 2015-10-13

广东省 广州市

发私信

1580

总声望

216

次被推荐

0

粉丝

他的回答
排序:

0
投票

大神们,能说说都有什么机器学习模型吗?(不论年代,不论方向),我想了解一下

你的这个问题可能需要需要好几本书来回答了~~~ 常见的就是逻辑回归、SVM、决策树、神经网络等等。 推荐一个链接 [url=http://mp.weixin.q...

2016-05-31 10:58 回复了该问题
0
投票

机器学习、数据挖掘有必要拥有坚实的数学基础吗?

数学对于机器学习和数据挖掘来说是很重要的,否则只会停留在调用包的层面上。 如果数学基础不好,那么建议可以多看微积分、线性代数、概率统计,补充这方面的知识,甚至买...

2016-05-31 08:49 回复了该问题
0
投票

sqoop从Oracle导表到hive报错

请问你集群中个版本信息是什么? 另外,在$SQOOP_HOME/lib/下你是否有添加Oracle相应版本的ODBC.jar包?

2016-05-31 08:45 回复了该问题
0
投票

hadoop 磁盘负载不均衡?

在你3个节点的环境下,并且还不考虑replication,Hadoop的负载可以说是按照机器来做的,但也不完全对。   但是实际上是这样的: 在有replica...

2016-05-31 08:40 回复了该问题
0
投票

请教各位,有推荐的R方面的资料吗,从入门开始

书籍: 《R语言实战》,个人觉得这本书比较适合入门,把书上的代码都敲一遍   视频: Coursera上霍普金斯大学的R语言课程 [url]https://ww...

2016-05-26 16:20 回复了该问题
0
投票

关于使用spark做olap靠谱么?有没有成熟案例?

基于大数据的OLAP,可以推荐使用Apache Kylin,[url]http://kylin.apache.org/cn/[/url]   这是由e-bay的...

2016-04-08 15:39 回复了该问题
1
投票

spark collect(),当数据量比较大时,卡死怎么解决?

collect是直接将执行collect的这个RDD是数据加载到内存中执行,如果数据量太大必然会卡死,所以唯一能建议的就是合理使用collect,不要滥用。

2016-04-08 15:36 回复了该问题
0
投票

spark 如何自动管理CPU,memory,I/O等资源?

Spark有3中部署模式:  1,Standalone  2,YARN   3,Mesos 这三种模式对应3种不同的资源管理,第一种是Spark自带的,第二种是...

2016-04-08 15:33 回复了该问题
0
投票

sqoop在导入数据到mysql时,如何让数据不重复导入?若存在数据问题,sqoop如何处理

增量导入或更新导入,增量更新时指定增量或更新的键

2016-04-08 15:31 回复了该问题
0
投票

hiveserver2经常出问题,进程没有挂掉,但是不能工作了,谁知道怎么回事?

查看hive的日志,然后检查你的10000端口是否正常。   如果方便的话,请贴出你hiveserver相关的日志错误部分。

2016-04-08 15:29 回复了该问题
1
投票

如何用 hadoop/hive 做日志分析系统?

有一种曾用过的流程供参考: 1,数据接入,可以选择使用Flume或者Fuse或Sqoop等方式接入; 2,直接接入到数仓(Hive实现的)的ODS层,后续的数据...

2016-04-08 15:27 回复了该问题
1
投票

外部表管理组,创建提供程序时找不到BISQLGroupProvider

此问题已解决,原本的参考文档是官方文档的Security Guide,后来在根据11g的文档在11g环境测试了,可以找到BISQLGroupProvider,然...

2015-11-05 14:44 回复了该问题
0
投票

BIEE Oracle BI Publisher 11g 报表字段的长度最大限制?

补充一点,中间用到了SUM,然后位数发生了变化,后来直接截取整数,整数部分有10位数(10亿)时是无法显示的,目前正在一位一位测试,验证BIEE到底能展现多长的...

2015-10-13 17:19 回复了该问题

改版

反馈