MENU

分类 Python 下的文章

基于Python、scrapy爬取软考在线题库

前言

前段时间,报名个软件设计师考试,自然需要复习嘛,看到软考在线这个平台有历年来的题目以及答案,想法就是做一个题库小程序咯,随时随地可以打开复习。很多人问,这不出现很多类似的小程序了?是的,但是他们的要不需要付费,要不一大堆广告,这激发我自己做一个小程序的想法。

阅读全文

scrapy值图片下载管道以及保存本地

前言

对于图片下载,在scrapy框架中提供了专门下载的Pipeline,即ImagesPipeline这个是定义好的。但是对于我们来说,他的局限性很大,所以基本上我们需要重写一个Pipeline。怎么局限性?
内置的ImagesPipeline会默认读取Item的image_urls字段,并认为该字段是一个列表形式,它会遍历Item的image_urls字段,然后取出每个URL进行图片下载。而我们业务逻辑往往不是这样。

阅读全文

scrapy数据入库处理

前言

对于数据存储,通常情况下存入MySQL或者MongoDB两种数据存储。下面主要以MySQL为例子。再scrapy中有一个叫Pipeline(管道),scrapy对于爬数据的分工很明确,爬虫部分、数据定义部分、管道部分。管道部分主要实现对爬取的数据流进行后期存储或者清洗等等。

阅读全文

brew安装指定版本Python

前言

最近在搞TensorFlow,目前最新版TensorFlow是1.11.0版本支持Python版本是2.7,3.4,3.5,3.6版本,而博主当初直接brew install python3安装的是Python3.7版本(目前Python最新版),发现TensorFlow还不支持3.7版本,so 只好回退Python版本。在stackoverflow找到解决方法,原理就是通过版本控制回滚到3.6版本然后进行安装低版本Python。

阅读全文