大数据

  从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。

1
推荐
4751
阅读

为jupyter_notebook增加目录

前言jupyter_notebook是数据相关岗位从业者的一个不错的选择,很清晰、很方便,可以将分析过程和分析结果同步显示在一起。但是有的时候随着你的分析增多,你...
0
推荐
2140
阅读

数据城堡参赛代码实战篇(四)---使用pandas合并数据表

作者:文文个人公众号:小小挖掘机(ID:wAIsjwj)前文传送门:数据城堡参赛代码实战篇(三)---使用pandas合并数据表 数据城堡参赛代码实战篇(二)---...
1
推荐
3009
阅读

假设检验的第1种类型:如何使用Python实现单样本检验

看下面内容前,我假设你已经学习了前面的:如何用最通俗易懂的方式理解假设检验。并了解了假设检验的基本步骤:下面我们通过一个案例来聊聊假设检验的第1种类...
1
推荐
2911
阅读

Sklearn参数详解—LR模型

最近开始一个新的系列,sklearn库中各模型的参数解释,本篇主要讲述最基础的LR模型。模型参数详解逻辑回归:sklearn.linear_model.LogisticRegression(penalt...
0
推荐
2058
阅读

数据城堡参赛代码实战篇(三)---使用pandas合并数据表

作者:文文个人公众号:小小挖掘机(ID:wAIsjwj)前文传送门:数据城堡参赛代码实战篇(一)---手把手教你使用pandas数据城堡参赛代码实战篇(二)---使用pan...
3
推荐
2024
阅读

如何入手数据科学竞赛——以kaggle为例

一些初学者会犹豫要不要参加 Kaggle 竞赛,这并不让人奇怪,他们通常有以下顾虑:我该如何开始?我要和经验丰富的博士研究者比赛吗?如果没有获胜的机会,还...
3
推荐
2243
阅读

Sklearn参数详解--决策树

前言先来简短的回顾一下决策树原理:决策树学习的算法通常是一个递归地(根据某一准则,信息增益或基尼系数)选择最优切分点/特征,并根据该特征对训练数据集...
1
推荐
2328
阅读

2018 Python AI 与机器学习开源项目排名 Top 20

作者:Ilan Reinstein来源:KDnuggets参与:Cynthia、大伟、周剑翻译:本文为天善智能编译,未经容许,禁止转载。想要深入了解机器学习与AI 并非易事。许多满...
1
推荐
2417
阅读

数据城堡参赛代码实战篇(二)---使用pandas进行数据去重

作者:文文个人公众号:小小挖掘机(ID:wAIsjwj)前文传送门:数据城堡参赛代码实战篇(一)---手把手教你使用pandas关注Python爱好者社区,回复"数据代码",...
0
推荐
2327
阅读

像软银CEO孙正义一样去思考做事

孙正义是软银的CEO。2014年9月16日,随着阿里巴巴登陆美股市场,孙正义的财富净值涨至166亿美元,跻身日本首富。在2000年互联网泡沫破灭后,高盛也是阿里巴巴...
0
推荐
2400
阅读

数据城堡参赛代码实战篇(一)---手把手教你使用pandas

作者:文文个人公众号:小小挖掘机(ID:wAIsjwj)最近参加了数据城堡(http://www.pkbigdata.com/)举办的“大学生助学金精准资助预测”比赛,分组第19名的成绩...
0
推荐
2057
阅读

网络字体反爬之pyspider爬取起点中文小说

作者: 星星在线 Python爱好者社区专栏作者简书地址:https://www.jianshu.com/u/680e0e38ddc9前几天跟同事聊到最近在看什么小说,想起之前看过一篇文章说的是...
0
推荐
2031
阅读

知识众筹第14期:我是如何从富士康转行到金融领域的?| 开始分红报名

什么是知识众筹?投资者选择自己看好的知识分享项目,并与知识分享者一起享受项目分红。本期项目邀请了猴子数据分析社群会员 周荣技,他从富士康成功转...
0
推荐
1905
阅读

【数据蒋堂】第45期:大数据计算语法的SQL化

回归SQL是当前大数据计算语法的一个发展倾向。在Hadoop体系中,现在已经很少有人会自己从头来写MapReduce代码了,PIG Latin也处于被淘汰的边缘,而HIve却始终...
1
推荐
2437
阅读

Python数据分析与数据化运营:商品数据化运营7-本章小结

作者介绍:宋天龙(TonySong),资深大数据技术专家,历任软通动力集团大数据研究院数据总监、Webtrekk(德国最大的网站数据分析服务提供商)中国区技术和咨...

1966 人关注

最佳回复者

改版

反馈