娇兮心有之的博客

                                                                                                                                  Python路上,你我同行!

                                                                                                                                  python爬虫scrapy框架:人工识别登录知乎倒立文字验证码和数字英文验证码(2)

                                                                                                                                  原创文章,转载请注明出处:https://www.cnblogs.com/wangchaowei/p/7518979.html 操作环境:python3 在上一文中我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前的文章便于理解 本文将介绍如何用scrapy来登录知乎。...

                                                                                                                                  2019-06-05 16:05:50

                                                                                                                                  阅读数 23

                                                                                                                                  评论数 0

                                                                                                                                  python爬虫scrapy框架:人工识别登录知乎倒立文字验证码和数字英文验证码(1)

                                                                                                                                  原创文章,转载请注明出处:https://www.cnblogs.com/wangchaowei/p/7508982.html 目前知乎使用了点击图中倒立文字的验证码:   用户需要点击图中倒立的文字才能登录。 这个给爬虫带来了一定难度,但并非无法解决,经过一天的耐心查询,终于可以人工识别...

                                                                                                                                  2019-06-05 16:03:43

                                                                                                                                  阅读数 22

                                                                                                                                  评论数 0

                                                                                                                                  scrapy 知乎用户信息爬虫

                                                                                                                                  zhihu_spider 此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo,下载这些数据感觉也没什么用,就当为大家学习scrapy提供一个例子吧。代码地址:https://github.com/LiuRoy/zhihu_spider,欢迎各位大神指...

                                                                                                                                  2019-06-05 16:02:25

                                                                                                                                  阅读数 28

                                                                                                                                  评论数 0

                                                                                                                                  scrapy爬虫docker部署

                                                                                                                                  创建image 进入spider_docker目录,执行命令: docker build --rm -t zhihu_spider src/ 运行完成后,执行docker iamges就可以看到生成的image ''' 遇到python不懂的问题,可以加Python学习交流群:100...

                                                                                                                                  2019-06-05 16:01:39

                                                                                                                                  阅读数 27

                                                                                                                                  评论数 0

                                                                                                                                  python爬取github数据

                                                                                                                                  爬虫流程 在上周写完用scrapy爬去知乎用户信息的爬虫之后,github上star个数一下就在公司小组内部排的上名次了,我还信誓旦旦的跟上级吹牛皮说如果再写一个,都不好意思和你再提star了,怕你们伤心。上级不屑的说,那就写一个爬虫爬一爬github,找一找python大牛,公司也正好在找人。...

                                                                                                                                  2019-06-05 16:00:51

                                                                                                                                  阅读数 24

                                                                                                                                  评论数 0

                                                                                                                                  Python游戏开发入门

                                                                                                                                  Pygame简介与安装 1.Pygame安装 pip install pygame 2.检测pygame是否安装成功 python -m pygame.examples.aliens Pygame最小开发框架及最小游戏 import pygame,sys ''' 遇到py...

                                                                                                                                  2019-05-31 20:25:10

                                                                                                                                  阅读数 47

                                                                                                                                  评论数 0

                                                                                                                                  python爬虫学习:分布式抓取

                                                                                                                                  前面的文章都是基于在单机操作,正常情况下,一台机器无论配置多么高,线程开得再多,也总会有一个上限,或者说成本过于巨大。因此,本文将提及分布式的爬虫,让爬虫的效率提高得更快。 构建分布式爬虫首先需要有多台机器,作者利用VMware安装了2台虚拟机,安装的教程请看VMwareWorkstation下...

                                                                                                                                  2019-05-30 15:31:26

                                                                                                                                  阅读数 69

                                                                                                                                  评论数 0

                                                                                                                                  python爬虫学习:验证码之滑动验证码

                                                                                                                                  前面两个文章提到了普通图片的验证码识别,且尤其对于机器学习的识别方式精度相对会比较高。但是,现在开始流行滑动验证码,所以这里作者提及一点简单的滑动验证码识别技巧。 打开火狐浏览器,按下F12,输入url为http://www.gsxt.gov.cn/index.html,可以打开国家企业信用信息...

                                                                                                                                  2019-05-30 15:29:59

                                                                                                                                  阅读数 129

                                                                                                                                  评论数 0

                                                                                                                                  python爬虫学习:验证码之机器学习

                                                                                                                                  上文学习了OCR破解识别验证码,但是还是发现识别的精度不高,因此针对这个问题本文利用机器学习的方法去破解验证码。 本文所用的机器学习的方法为余弦相似度,重点的思想是将图片的每一个像素点作为一个坐标点,构造成一个很长的向量。例如,假设某一张图片由200个像素点组成,每个像素点都以RGB颜色的值来表...

                                                                                                                                  2019-05-30 15:28:58

                                                                                                                                  阅读数 84

                                                                                                                                  评论数 0

                                                                                                                                  python爬虫学习:验证码之OCR

                                                                                                                                  在爬虫的过程中,可能都会遇到一个很头疼的问题:验证码。弹出验证码是反爬虫的一种方式,主要是由于这些原因: 抓取频率太高 爬虫未伪装 网站限制访问次数 对于第一种情况,如果爬虫的要求不是很高的话,或者网站很奇葩,一定需要时间间隔,例如: 在抓取这类网站的时候,可以在每个抓取周期里面...

                                                                                                                                  2019-05-30 15:27:48

                                                                                                                                  阅读数 47

                                                                                                                                  评论数 0

                                                                                                                                  python爬虫学习:异步加载

                                                                                                                                  上文有提到异步加载的情况,所以本文要来抓取异步加载的网页,首选的是百度图片。大家都知道,百度图片是下拉的时候才加载后面的图片,在不使用selenium的情况下如何构造url?首先用firefox打开百度图片,F12,输入关键词图片,拉下拉框,当第一次加载图片的时候停止下拉,看以看到出现了一个带有a...

                                                                                                                                  2019-05-29 16:56:00

                                                                                                                                  阅读数 25

                                                                                                                                  评论数 0

                                                                                                                                  python爬虫学习:自动化操作

                                                                                                                                  在爬虫的过程中,很容易就遇到需要爬取的信息是javascript加载的,而requests抓取下来的网页是没有经过javascript渲染的。上文提到的selenium功能很强大,对于需要用javascript加载的网页有非常好的效果,所以本文将介绍selenium的一些用法。 增加头部 在p...

                                                                                                                                  2019-05-29 16:55:17

                                                                                                                                  阅读数 30

                                                                                                                                  评论数 0

                                                                                                                                  python爬虫学习:浏览器登陆

                                                                                                                                  上一章学习了用python模拟登陆百度,其中get和post的步骤很多,在任何一个环节出错都会导致最后登陆失败,所以这个对于新手来说有点勉强。这一章介绍一个简单的登陆方式,用以获取登陆后的cookie。 在python中有一个很强大的库selenium,这个库能调用浏览器,利用浏览器来登录百度,...

                                                                                                                                  2019-05-29 16:54:40

                                                                                                                                  阅读数 37

                                                                                                                                  评论数 0

                                                                                                                                  python爬虫学习:模拟登陆

                                                                                                                                  前面学习了如何在get的时候想服务器发送多变的请求数据,从而达到搜索的效果,而实际上搜索是简单的登陆!所以本文将要介绍如何向百度服务器发送post数据,从而达到模拟登陆百度的效果。 首先打开firefox浏览器,清除网页所有的历史纪录,这是为了防止以前的Cookie影响服务器返回的数据。 F...

                                                                                                                                  2019-05-29 16:54:04

                                                                                                                                  阅读数 38

                                                                                                                                  评论数 0

                                                                                                                                  python爬虫学习:数据请求

                                                                                                                                  前面学习的爬虫知识都是将页面的数据抓取下来,专业来说也就是get数据,而有时候在get的同时,还会向后台发送请求数据。 在百度搜索的时候,打开百度搜索的主页https://www.baidu.com/,这一过程是get的行为;如果在搜索栏中输入某一个关键字,并点击了百度一下,这时候前端会将你的关...

                                                                                                                                  2019-05-29 16:52:04

                                                                                                                                  阅读数 22

                                                                                                                                  评论数 0

                                                                                                                                  python爬虫学习:多线程抓取

                                                                                                                                  上文在有提到过反爬虫的问题,禁止访问只是反爬虫的其中一种策略,下面来讲另外一种反爬虫策略抓取时间。 假设一个爬虫程序抓取网页的速度和正常用浏览器复制的速度一样,那么这个爬虫程序无疑是失败的,假设要抓取的信息很多,一个爬虫程序跑几天都没跑完,那么应该要想到提高程序的效率。例如一个新闻公司需要爬虫工...

                                                                                                                                  2019-05-29 16:51:24

                                                                                                                                  阅读数 27

                                                                                                                                  评论数 0

                                                                                                                                  python爬虫学习:增加头部

                                                                                                                                  上文读者应该已经学会怎么抓取自己需要的图片了,但是笔者在抓取http://search.smzdm.com/?c=home&s=rimowa图片的时候出现如下错误: urllib.error.HTTPError: HTTP Error 403: Forbidden 403禁...

                                                                                                                                  2019-05-29 16:50:37

                                                                                                                                  阅读数 24

                                                                                                                                  评论数 0

                                                                                                                                  python爬虫学习:抓取图片

                                                                                                                                  上文读者应该已经学会怎么提取自己想要的文本信息出来了,那么如何抓取自己需要的图片呢? 例如抓取首页的轮播图http://www.tybai.com/: 打开谷歌浏览器按F12,点击箭头 箭头选中某一张图片,点击 鼠标箭头悬浮在jpg的地方 ''' 遇到python不懂的问题,可以加...

                                                                                                                                  2019-05-29 16:49:41

                                                                                                                                  阅读数 34

                                                                                                                                  评论数 0

                                                                                                                                  python爬虫学习:信息提取

                                                                                                                                  上文已经将网页的信息转码成UTF_8并抓取下来了,但是很多信息不是自己需要的,那么怎么提取出自己需要的信息呢?本文提供三种方法:Regex,BeautifulSoup,Lxml. Regex 按照上文的结果,如果我需要抓取自己网页中的这一句话: 这一句话出现的前后语句为: &...

                                                                                                                                  2019-05-29 16:48:41

                                                                                                                                  阅读数 27

                                                                                                                                  评论数 0

                                                                                                                                  python爬虫学习:初识爬虫

                                                                                                                                  开始教程之前需要安装Python,本人所用的Python的版本是Python3.4.4,直达下载链接: Python3.4.4 Python又是一个强制缩进的语言,所以一款好的IDE是必不可少的,直达下载链接: Pycharm 安装的教程可以看下博客: pycharm基本设置 完事具备...

                                                                                                                                  2019-05-29 16:47:40

                                                                                                                                  阅读数 38

                                                                                                                                  评论数 0

                                                                                                                                  提示
                                                                                                                                  确定要删除当前文章?
                                                                                                                                  取消 删除
                                                                                                                                  关闭
                                                                                                                                  关闭