天善智能-商业智能和大数据在线社区，用心创造价值

0

投票

并查集这类的算法在Apache Spark运算框架的实现现在有若干组若干个的(A,B),(B,C),(A,C)关联的组合，使用在Spark中构建并查集的实现方向

并集：RDD1.union(RDD2).distinct 差集：RDD1.intersection(RDD2)

2017-02-23 10:59 回复了该问题

0

投票

各位，本人一直从事java开发，最近想学一下spark方面的技术，有没有过来人推荐一下相关的书或者资料的，或者学习的一个路线大概是什么样子的？

直接看Spark官网吧，有Demo，自己动手做一下。

2017-02-23 11:34 回复了该问题

0

投票

hive不建立在Spark的Master上，而是建立在worker上，后面存表可以吗？怎么指定hive的节点呢

可以啊，通过<name>hive.metastore.warehouse.dir</name>指定你hive仓库所在的路径，通常是hdf...

2017-04-03 21:02 回复了该问题

0

投票

请教个问题，有谁遇到过hive的元数据仓库服务频繁的内存溢出？查堆转储，发现org.apache.hadoop.conf.Configuration这个类非常多，占满了内存，有哪位大侠，遇到过？能不能指个方向？

提交作业很频繁吧？每次作业的提交都会实例化org.apache.hadoop.conf.Configuration这个类

2017-04-05 10:22 回复了该问题

0

投票

一个spark项目local启动不了，求大神指导（win10+idea2017+spark-core-2.10-1.6.1）

权限问题，不要在idea环境里面调，打包在服务器上运行。或者在spark-shell调试好代码在粘贴到idea里面最后再打包上传服务器运行。

2017-04-05 17:18 回复了该问题

0

投票

spark streaming监控目录，程序有时会自动中断（如出现异常），如何启动重新运行

写个脚本判断是否有这个进程，如果没有重新启动~。当然如果你的SparkStreaming监控HDFS目录出现异常，说明的你程序本身的稳定性不好，最好做try c...

2017-02-28 08:40 回复了该问题

0

投票

spark中如何看有多少个并发的task啊

你可以通过rdd.partitions.size在程序里面查看，比较方便的是你可以在spark-shell中 val a = spark.range(1,10...

2017-04-06 10:42 回复了该问题

0

投票

有个问题请教一下：有一些数据是从互联网上爬取的，存放于hdfs中，想做一些数据统计或分析，后面有哪些方式实现？

做数据统计或分析选择就多了。可以用R、Python、java等语言，将数据从HDFS读取出来后做一些数理统计。如果要用大数据处理方案，选择还是比较多的，建议使用...

2017-06-16 10:13 回复了该问题

0

投票

能否在本地连接到spark集群进行计算，不用将程序打包到hdfs，求方案

当然可以，你本地作为Driver节点，任务分发到集群上去执行。程序中指定master就可以了

2017-02-28 08:42 回复了该问题

0

投票

像spark hadoop这些大数据相关的怎么自我学习，比如说集群个人电脑条件也不满足有没有什么云平台可以提供实验环境？

你可以到腾讯实验室看看。目前是免费试验

2017-08-30 10:19 回复了该问题

0

投票

spark从mysql读取数据，根据日期放在hive里面，产生了好多小文件，现在通过DataSet.coalesce()合并小文件，导致写入速度非常慢，各位大神有啥其他方法

你的目的是减少文件的个数，设置合理的分区数就可以了，例如设置分区数为5，对应5个文件。coalesce和repartitions都能设置分区数量，其底层原理有稍...

2017-08-30 10:23 回复了该问题

0

投票

请问一下，你们做hadoop mr的时候是在本地开发还是在虚拟机上开发的？

程序本地写，测试时候发到你的服务器上去跑。

2017-08-30 10:24 回复了该问题

0

投票

请问要用rhadoop，sparkR包，必须在linux环境下的R吗？

那是肯定的啊，R代码需要R环境才能解析啊

2017-08-30 10:25 回复了该问题

0

投票

WordCount运行不起来

报错很明显，没有将jar包含，应该有个API设置jar包，好像是setJar，没有jar包怎么能执行喃？具体怎么设置自行百度吧，智能帮你到这里了

2017-03-01 10:29 回复了该问题

0

投票

进入hive输入任何命令报错

1.检查环境变量配置了吗？ 2.检查安装包是否损坏，可以尝试重新配置安装

2017-03-01 10:31 回复了该问题

regan

他关注的

他的粉丝

他的回答
排序:
时间 投票