天善智能-商业智能和大数据在线社区，用心创造价值

0

投票

[Python直播问题]整个网页爬下来的东西可以直接放在关系型数据库吗？

如果做通用爬虫，整个网页一般不放在关系型数据库中，一般会提取网页的标题、关键词、描述信息等放在数据库中，其他信息以网页的形式存储在服务器中即可。

2016-10-14 16:11 回复了该问题

0

投票

[Python直播问题]用anaconda最新版还需要安装python3.5吗？

如果用anaconda，不需要再按照py3.5。但是直播课程会直接采用py3.5讲解。

2016-10-14 16:13 回复了该问题

0

投票

[Python直播问题]拼团中的文本挖掘用的是机器学习相关的？NLTK库是否会涉及？

会涉及的。

2016-10-14 16:13 回复了该问题

0

投票

[Python直播问题]anaconda怎么打开老师刚刚的cmd

通过powercmd软件。

2016-10-14 16:14 回复了该问题

0

投票

[Python直播问题]python PIL 在处理gif图片时质量下降有什么好办法吗?

可以通过quality指定质量。

2016-10-14 16:16 回复了该问题

0

投票

[Python直播问题]文本挖掘之自动匹配推荐实现，是指推荐系统吗

课程中是。

2016-10-14 16:17 回复了该问题

0

投票

[Python直播问题]我是新手，用Anaconda 集成了大部分的包，很方便。老师，Anaconda环境和Scrapy框架有什么关系？使用Scrapy框架爬虫和一般的python环境爬虫区别很大么

1、Anaconda相当于python跟一些库的集成版本。Scrapy是Python的一个框架。 2、Scrapy框架爬虫和一般的python环境爬虫基本实现原...

2016-10-14 16:20 回复了该问题

0

投票

[Python直播问题]老师python3 pycharm ipython anaconda 这些哪个更适合爬虫

看个人喜好用python还是anaconda，我这边课程喜欢直接用Python，目前版本是py3.5，pycharm是一个编辑器，ipython是一个 pyth...

2016-10-14 16:22 回复了该问题

0

投票

[Python直播问题]百度的后台会存所有的网站，难道他们是一个一个网页去分析然后用这种方式来做，有没有通用的解决方式？

不需要，搜索引擎中用的这种叫做通用爬虫，直接爬网页就行，不需要设置信息提取规则，即使要设置，提取的标题、关键词等信息直接通过Xpath表达式就行，一样的。

2016-10-14 16:23 回复了该问题

0

投票

[Python直播问题]分布式的环境有什么要求

您好，用scrapy-redis就可以实现。

2016-10-14 17:02 回复了该问题

0

投票

[Python直播问题]js文件里面的内容如何爬取

先抓包分析，然后分析出js地址，再总结js网址规律，进而进行爬取。

2016-10-14 17:03 回复了该问题

0

投票

[Python直播问题]老师，你了解Facebook的发扒机制怎么破解码

反爬机制之前提过，无非常见的就几种：1、提过robots协议限制，2、通过用户代理判断是否通过浏览器访问限制，3、验证码限制，4、IP限制，这些反爬机制都是可以...

2016-10-14 17:07 回复了该问题

0

投票

[Python直播问题]团购里面会讲网页里面的有哪些限制协议以及怎么处理吧？

这些服务器对我们爬虫的限制我们称为反爬机制，反爬机制之前提过，无非常见的就几种：1、提过robots协议限制，2、通过用户代理判断是否通过浏览器访问限制，3、验...

2016-10-14 17:08 回复了该问题

0

投票

[Python直播问题]老师讲一下Scrapy的安装啊

安装这一块具体会在拼团课程中讲，这一块不难，但是坑比较多，具体可以先百度试试，遇到坑时咱们微信群讨论。

2016-10-14 17:09 回复了该问题

0

投票

[Python直播问题]可以PyCharm打包设置成定时任务，放在Linux里面定时抓取吧？

linux中可以在crontab设置定时任务的，目前Scrapy已经支持Python3了的，课程中会使用最新版Python3讲解，一切向py3看齐。

2016-10-14 17:11 回复了该问题

韦玮

他关注的

他的粉丝

他的回答
排序:
时间 投票