大数据

  从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。

3
推荐
3945
阅读

构建lending club的申请评分卡模型

作者:凌岸    终身学习者@数据分析&数据挖掘^Python爱好者社区专栏作者知乎专栏:https://www.zhihu.com/people/yuan-fang-20-16建模不...
3
推荐
1448
阅读

做了那么多营销,为什么没有效果?

作者:接地气的陈老师链接:https://www.zhihu.com/question/26695520/answer/294244813来源:知乎作为一个经常整出来漂亮的活动ROI报告的老兵,分享一些精准...
3
推荐
4559
阅读

Python数据科学:全栈技术详解1-个人贷款违约预测模型

Ben,多本数据科学畅销书作家,先后在亚信、德勤、百度等企业从事电信、金融行业数据挖掘工作。配套学习教程:数据科学实战:Python篇 https://edu.hell...
3
推荐
2005
阅读

Sklearn参数详解--决策树

前言先来简短的回顾一下决策树原理:决策树学习的算法通常是一个递归地(根据某一准则,信息增益或基尼系数)选择最优切分点/特征,并根据该特征对训练数据集...
3
推荐
1804
阅读

如何入手数据科学竞赛——以kaggle为例

一些初学者会犹豫要不要参加 Kaggle 竞赛,这并不让人奇怪,他们通常有以下顾虑:我该如何开始?我要和经验丰富的博士研究者比赛吗?如果没有获胜的机会,还...
3
推荐
1799
阅读

项目汇报的12模板—再也不怕做项目时各种撕逼了

又到年底,汇报成堆。这时候同学们开始抓耳挠腮,感觉写汉字比写代码难多了,半天憋不出来个屁。为了减轻大家汇报负担,陈老师总结了常用汇报模板,大家自行...
3
推荐
3019
阅读

HPL/SQL (Hive Hybrid Procedural SQL On Hadoop) --- 一个在Hive上执行过程SQL的工具

HPL / SQL是一种为Hive实现过程化SQL的工具。从Hive 2.0.0(HIVE-11055)开始可用。HPL/SQL对于Hive的意义,也就是PL/SQL对于Oracle的意义。对于广大的数据开...
3
推荐
1927
阅读

Apache Kylin v2.4.1 正式发布

Apache Kylin社区于日前宣布:Apache Kylin v2.4.1 正式发布!欢迎大家下载使用。Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop 之上的 SQL 查...
2
推荐
3295
阅读

概念、算法、应用全部有,迄今为止对大数据研究最透彻的文章

一、 大数据基本概念 大数据Big Data是指大小超出了常用的软件工具在运行时间内可以承受的收集,管理和处理数据能力的数据集;大数据是目前存储模式与...
2
推荐
5138
阅读

大数据案例:啤酒尿布的关联算法怎么来的?

摘要:“啤酒+尿布”的发现为商家带来了大量的利润,但是如何从浩如烟海却又杂乱无章的大数据中,发现啤酒和尿布销售之间的联系呢? 故事背景: 在一家...
2
推荐
2671
阅读

为什么你的数据分析那么好,图表却做得那么烂?

优秀的数据可视化依赖优异的设计,并非仅仅选择正确的图表模板那么简单。全在于以一种更加有助于理解和引导的方式去表达信息,尽可能减轻用户获取信息的成本...
2
推荐
2291
阅读

Hadoop 入门学习参考博文

Hadoop安装手册1-基础扫盲及准备工作 Hadoop安装手册2-Hadoop环境配置 Hadoop安装手册3-启动Hadoop基础服务Hadoop安装手册4-添加与删除Hadoop节点&...
2
推荐
3201
阅读

如何构建用户画像

       从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据...
2
推荐
2651
阅读

Intel研究院院长吴甘沙:大数据分析师的卓越之道(珍藏版)

演讲人:吴甘沙 英特尔中国研究院院长兼首席工程师素材来自:经管之家(bbs.pinggu.org) 组织“中国数据分析师行业峰会”。亲爱的各位同仁,各位同学,早上好。...
2
推荐
2538
阅读

大数据与BI的共同困惑 - 还差一公里

当大数据即Big Data与云计算、移动应用与社交网络风靡一世,成为近几年信息技术领域最时髦的词汇。IBM 、Oracle、SAP、微软等厂商,像寻找到了新的金矿,开始...

1965 人关注

最佳回复者

改版

反馈