如果做通用爬虫,整个网页一般不放在关系型数据库中,一般会提取网页的标题、关键词、描述信息等放在数据库中,其他信息以网页的形式存储在服务器中即可。
2016-10-14 16:11 回复了该问题如果用anaconda,不需要再按照py3.5。但是直播课程会直接采用py3.5讲解。
2016-10-14 16:13 回复了该问题1、Anaconda相当于python跟一些库的集成版本。Scrapy是Python的一个框架。 2、Scrapy框架爬虫和一般的python环境爬虫基本实现原...
2016-10-14 16:20 回复了该问题看个人喜好用python还是anaconda,我这边课程喜欢直接用Python,目前版本是py3.5,pycharm是一个编辑器,ipython是一个 pyth...
2016-10-14 16:22 回复了该问题不需要,搜索引擎中用的这种叫做通用爬虫,直接爬网页就行,不需要设置信息提取规则,即使要设置,提取的标题、关键词等信息直接通过Xpath表达式就行,一样的。
2016-10-14 16:23 回复了该问题反爬机制之前提过,无非常见的就几种:1、提过robots协议限制,2、通过用户代理判断是否通过浏览器访问限制,3、验证码限制,4、IP限制,这些反爬机制都是可以...
2016-10-14 17:07 回复了该问题这些服务器对我们爬虫的限制我们称为反爬机制,反爬机制之前提过,无非常见的就几种:1、提过robots协议限制,2、通过用户代理判断是否通过浏览器访问限制,3、验...
2016-10-14 17:08 回复了该问题安装这一块具体会在拼团课程中讲,这一块不难,但是坑比较多,具体可以先百度试试,遇到坑时咱们微信群讨论。
2016-10-14 17:09 回复了该问题linux中可以在crontab设置定时任务的,目前Scrapy已经支持Python3了的,课程中会使用最新版Python3讲解,一切向py3看齐。
2016-10-14 17:11 回复了该问题