用Scrapy和Selenium爬取动态数据

Python70

一、 用Selenium操作谷歌浏览器,登录TB账号获取Cookie

因为TB网的搜索功能需要登录之后才能使用,所以我们要通过程序去控制浏览器实现登录功能,然后再获取登录之后的Cookie.

首先创建一个Chrome浏览器对象,用这个对象去操控谷歌浏览器:

```python
import json
from selenium import webdriver

def create_chrome_driver(*, headless=False):
options = webdriver.ChromeOptions()
if headless:
options.add_argument('--headless')

options.add_experimental_option('excludeSwitches', ['enable-automation'])
options.add_experimental_option('useAutomationExtension', False)

browser = webdriver.Chrome(options=options,executable_path=r"D:\python爬虫学习\Scrapy框架学习\TaoSpider\venv\Lib\site-packages\chromedriver.exe")
输入验证码查看隐藏内容

扫描二维码关注本站微信公众号 Johngo学长
或者在微信里搜索 Johngo学长
回复 svip 获取验证码
wechat Johngo学长

相关文章
Python

【动画解释】关系数据库de关系代数小记

本文章在 Github 撰写,同时在 我的博客 进行了发布。 最近学数据库概论学到了 关系数据库的关系代数了。哎嘛,真的把我整晕了,尤其是关系代数的使用,很容易让人被蒙在鼓里。 对我来说槽点最大的莫过...
Python

字符串格式化

在编写程序中经常需要动态输出字符串。例如,我们通过程序计算计算机的内存利用率,然后输出 10:15 计算机的内存利用率为30% 其中下划线部分的内容会动态调整,需要根据执行结果进行填充,最终形成上述格...
Python

【机器学习】手写数字识别

前言 logistic回归,是一个分类算法,可以处理二元分类,多元分类。我们使用sklearn中的logistic对手写数字识别进行实践。 数据集 MNIST数据集来自美国国家标准与技术研究所,训练集...
Python

Python的日志输出

一、 基础使用 所有程序都需要记录日志,日志中包含的信息包括正常程序访问日志和错误、警告等信息输出。[En]All programs need to record logs, and the info...
Python

办公自动化:Image图片转换成PDF文档存储

实现图片转换成PDF文档的操作方法有很多,综合对比以后感觉fpdf这个模块用起来比较方便而且代码量相当少。 【阅读全文】 安装的方式很常规,直接使用pip安装就行了。 pip install fpdf...
Python

网络编程-Python

网络编程初识 就是计算机与计算机之间进行通信的时候有一些约定 使用网络的目的: 它用于连接多方,然后进行通信,即从以色列向对方传输数据。[En]It is used to connect multip...
Python

如何制作验证码

推导步骤1:在img标签的src属性里放上验证码的请求路径 补充1.img的src属性&a...
Python

Loguru:Python 日志终极解决方案

关注微信公众号:K哥爬虫,持续分享爬虫进阶、JS/安卓逆向等技术干货! 日志的重要性 日志的作用非常重要,日志可以记录用户的操作、程序的异常,还可以为数据分析提供依据,日志的存在意义就是为了能够在程序...