(python中dom是什么意思)(python dom类)

  

(python中dom是什么意思)(python dom类)

  Python开发爬虫常用的工具总结

  reqeusts:Python HTTP网络请求库;

  pyquery: Python HTML DOM结构解析库,采用类似JQuery的语法;

  BeautifulSoup:python HTML以及XML结构解析;

  selenium:Python自动化测试框架,可以用于爬虫;

  phantomjs:无头浏览器,可以配合selenium获取js动态加载的内容;

  re:python内建正则表达式模块;

  fiddler:抓包工具,原理就是是一个代理服务器,可以抓取手机包;

  anyproxy:代理服务器,可以自己撰写rule截取request或者response,通常用于客户端采集;

  celery:Python分布式计算框架,可用于开发分布式爬虫;

  gevent:Python基于协程的网络库,可用于开发高性能爬虫

  grequests:异步requests

  aiohttp:异步http client/server框架

(python中dom是什么意思)(python dom类)

(分类python股票)(分类python)

  asyncio:python内建异步io,事件循环库

  uvloop:一个非常快速的事件循环库,配合asyncio效率极高

  concurrent:Python内建用于并发任务执行的扩展

  scrapy:python 爬虫框架;

  Splash:一个JavaScript渲染服务,相当于一个轻量级的浏览器,配合lua脚本通过他的http API 解析页面;

  Splinter:开源自动化Python web测试工具

  pyspider:Python爬虫系统

  网页抓取思路

  数据是否可以直接从HTML中获取?数据直接嵌套在页面的HTML结构中;

  数据是否使用JS动态渲染到页面中的?数据嵌套在js代码中,然后采用js加载到页面或者采用ajax渲染;

  获取的页面使用是否需要认证?需要登录后页面才可以访问;

  数据是否直接可以通过API得到?有些数据是可以直接通过api获取到,省去解析HTML的麻烦,大多数API都是以JSON格式返回数据;

  来自客户端的数据如何采集?例如:微信APP和微信客户端

  如何应对反爬

  不要太过分,控制爬虫的速率,别把人家整垮了,那就两败俱伤了;

(python中画圆圈函数)(python中画圆圈函数)

  使用代理隐藏真实IP,并且实现反爬;

  让爬虫看起来像人类用户,选择性滴设置以下HTTP头部:Host:https://www.baidu.comConnection:keep-aliveAccept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8UserAgent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36Referer: http://s.weibo.com/user/gamelife1314&Refer=indexAccept-Encoding: gzip, deflateAccept-Language: zh-CN,zh;q=0.8

  查看网站的cookie,在某些情况下,请求需要添加cookie用于通过服务端的一些校验;

声明:我要去上班所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者所有,原文出处。若您的权利被侵害,请联系删除。

本文标题:(python中dom是什么意思)(python dom类)
本文链接:https://www.51qsb.cn/article/5930.html

(0)
打赏微信扫一扫微信扫一扫QQ扫一扫QQ扫一扫
上一篇2022-09-16
下一篇2022-09-08

你可能还想知道

发表回复

登录后才能评论