数据挖掘

  数据挖掘(Data mining)一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息和知识的过程

4
推荐
2117
阅读

借助caret包实现特征选择的工作

前言我们有一期的文章讲述了如何使用caret包进行数据的预处理,其中内容包括哑变量的创建、近零方差变了的筛选、数据标准化、缺失值处理、数据分割等。可以在...
1
推荐
1898
阅读

用数据解读摩羯智投

前言进入2016年,伴随世界经济危机的到来,中国互联网创业,也在经历长时间的寒冬,有不少的公司都因资金链断裂,停止了运营。与寒冬反差很大的是,AI技术却...
1
推荐
1565
阅读

【数据挖掘】中小企业代理会计识别模型

1.背景与目标    目前企业用户中有大量的中小型企业受制于人员和成本压力并没有专职的会计人员,代理记账公司或者兼职会计成为首要选择。企业客户...
1
推荐
2406
阅读

15分钟学会数据地图分析

什么都不说,先上一张最终的数据地图效果图,热力图部分是目标用户的分布,紫色和蓝色的购物车表示2种类型的商业购物场所。而深浅不一的蓝色格子块则代表房价...
1
推荐
2576
阅读

运用R分析全唐诗与全宋词

宋词词云分析步骤主要由三部分构成:资料收集、词频统计、对比分析从网上共搜集唐诗4.8万首,宋词1400首;进过预处理过程之后,对其进行分词与词频统计,各取...
1
推荐
3197
阅读

一篇文章读懂活跃数据

今天先聊一聊用户运营中,有关活跃的基础话题。对一家互联网公司来说,如果没有设置单独的数据运营岗,那么用户运营是和数据最贴近,也必须是最了解用户的。...
3
推荐
2606
阅读

借助tesseract包实现图片文本提取功能

2016年11月,Jeroen Ooms在CRAN发布了tesseract包,实现了R语言对简单图片的文本提取、分析功能。利用开源OCR引擎进行图片处理,目前可以识别超过100种语言,...
4
推荐
3359
阅读

可视化干货|可能是最好玩的像素地图

在上几期,浩彬老撕给大家介绍了一个神器,在线的云词图制作工具:干货教程|可能是最方便好用的文字云工具,其中里面有一幅设计图大家念念不忘,纷纷留言要资...
0
推荐
2034
阅读

如何直观地理解过拟合与欠拟合那些事~

在上前几期中,我们曾谈到过在我们希望借助统计学习方法,能够在现有的数据当中掌握规律,从而能够对未来/未知进行预测控制。虽然是说从现有的数据当中掌握规...
3
推荐
4258
阅读

统计挖掘那些事——强大的逻辑回归(理论+案例)

在上期,浩彬老撕给大家介绍了非线性回归模型,解决了在现实环境中,非线性形式的问题。但是进一步地,我们的因变量也并不总是数值型变量,有可能也是分类型...
1
推荐
2982
阅读

统计挖掘那些事——婀娜多姿的非线性回归(理论+案例)

在现实环境中,我们需要研究的问题有满足线性回归形式的,但是也有很大的一部分并不满足线性关系。例如,我们能够利用自变量x构建回归方程,那么能否利用x的...
2
推荐
1686
阅读

快讯| 12月R 新包发布

12月份,CRAN总计新增217个新包。这是过去9年以来数量增加最多的一个月。下文主要简单介绍其中部分R包,包括六个类别:数据类、数据科学、金融分析、统计类、...
4
推荐
3220
阅读

IBM SPSS 超级工具书收藏系列(十)——自动化模型部署运行

1.前言最近一直在更新数据挖掘一些事一些情系列,包括有:如何直观地理解过拟合与欠拟合那些事~统计挖掘那些事——强大的逻辑回归(理论+案例)统计挖掘那些事—...
2
推荐
1597
阅读

R文本挖掘初探之“天下风云出我辈, 一入江湖岁月催”(2)

原计划的4、5基本不打算去操作了,因为没有用到新的东西。这贴就记录下实现的过程,以及用到的知识和工具,期间遇到的各类问题及解决也会出现在这里。起先,...
13
推荐
13319
阅读

如何七周成为数据分析师

写这个系列,是希望在当初知乎某一个回答的基础上,单独完善出针对互联网产品和运营们的教程。不论对数据分析或数据运营,我都希望它是一篇足够好的教材。得...

1878 人关注

最佳回复者

改版

反馈