Hadoop

  Hadoop 是 Apache 软件基金会所研发的开放源码并行运算编程工具和分布式档案系统,与 MapReduce 和 Google 档案系统的概念类似

1
推荐
1889
阅读

RHadoop培训 之 Linux基础课

前言覆盖Linux基础知识,快速上手,搭建RHadoop环境的基础课。目录背景知识文件系统常用命令vi编辑器用户管理磁盘管理网络管理系统管理软件包管理常用软件1. ...
3
推荐
1879
阅读

解决RHadoop错误:PipeMapRed.waitOutputThreads(): subprocess failed with code 1

前言一行错误难倒一片同学,今天在准备 统计之都沙龙 的时候,我也遇到相同的错误。就让我来解决一下,在使用rhadoop的rmr2中,经常会遇到的一个错误。按照&n...
1
推荐
2288
阅读

RHadoop实践系列之四 rhbase安装与使用

第四篇 HBase和rhbase的安装与使用,分为3个章节。 1. 环境准备及HBase安装 2. rhbase安装 3. rhbase程序用例 每一章节,都会分为”文字说明部分”和”代码部分”...
4
推荐
2557
阅读

RHadoop实践系列之三 R实现MapReduce的协同过滤算法

第三篇 R实现MapReduce的协同过滤算法,分为3个章节。1.基于物品推荐的协同过滤算法介绍 2.R本地程序实现 3.R基于Hadoop分步式程序实现 每一章节,都会分为”...
0
推荐
1855
阅读

Hadoop配置备忘录

在这个人人都谈大数据的时代,如果不了解一点大数据的操作,都不好意思说自己是学统计的了。所以,今天让我们来一起学习在自己的电脑上使用多个虚拟机模拟配...
1
推荐
2808
阅读

RHadoop实践系列之二:RHadoop安装与使用

第二篇 RHadoop安装与使用部分,分为3个章节。1. 环境准备 2. RHadoop安装 3. RHadoop程序用例 每一章节,都会分为”文字说明部分”和”代码部分”,保持文字说明...
1
推荐
2390
阅读

RHadoop实践系列之一:Hadoop环境搭建

第一篇 Hadoop环境搭建部分,分为3个章节。Haddop环境准备 Hadoop完全分步式集群搭建 HDFS测试 每一章节,都会分为”文字说明部分”和”代码部分”,保持文字说明...
2
推荐
1968
阅读

基于Zookeeper的分步式队列系统集成案例

前言软件系统集成一直是工业界的一个难题,像10年以上的遗留系统集成,公司收购后的多系统集成,全球性的分步式系统集成等。虽然基于SOA的软件架构,从理论上...
1
推荐
1721
阅读

PeopleRank从社交网络中发现个体价值

前言如果说Google改变了互联网,那么社交网络就改变人们的生活方式。通过社交网络,我们每个个体,都是成为了网络的中心。我们的生活半径,被无限放大,通过6...
1
推荐
1941
阅读

Mahout构建图书推荐系统

前言本文是Mahout实现推荐系统的又一案例,用Mahout构建图书推荐系统。与之前的两篇文章,思路上面类似,侧重点在于图书的属性如何利用。本文的数据在自于Ama...
5
推荐
1918
阅读

用Mahout构建职位推荐引擎

前言随着大数据思想实施的落地,推荐系统也开始倍受关注。不光是电商,各种互联网应用都开始应用推荐系统,像搜索,社交网络,音乐,餐饮,地图服务等等。在...
2
推荐
2431
阅读

用Hadoop构建电影推荐系统

前言Netflix电影推荐的百万美金比赛,把“推荐”变成了时下最热门的数据挖掘算法之一。也正是由于Netflix的比赛,让企业界和学科界有了更深层次的技术碰撞。引...
1
推荐
2368
阅读

海量Web日志分析 用Hadoop提取KPI统计指标

前言Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值等。一般中型的网站(10W的PV以上),...
11
推荐
1756
阅读

PageRank算法并行实现

前言Google通过PageRank算法模型,实现了对全互联网网页的打分。但对于海量数据的处理,在单机下是不可能实现,所以如何将PageRank并行计算,将是本文的重点...
4
推荐
1772
阅读

Mahout分步式程序开发 聚类Kmeans

前言Mahout是基于Hadoop用于机器学习的程序开发框架,Mahout封装了3大类的机器学习算法,其中包括聚类算法。kmeans是我们经常会提到用到的聚类算法之一,特别...

1102 人关注

最佳回复者

改版

反馈