爬取一个网站中的多个表格

2022-12-19Python106

一、导入url

以这个链接为例 https://www.hurun.net/zh-CN/Info/Detail?num=E7190250C866

# &#x5BFC;&#x5165;pandas &#x8FD9;&#x4E2A;&#x6A21;&#x5757;
import pandas as pd
# &#x7F51;&#x9875;&#x94FE;&#x63A5;
url = "xxx"
# header=0&#x6307;&#x5B9A;&#x5217;&#x6807;&#x9898;&#x6240;&#x5728;&#x7684;&#x884C;&#x4E3A;&#x7B2C;0&#x884C;&#xFF0C;encoding="utf-8"&#x4E2D;&#x6587;&#x5B57;&#x7B26;&#x7F16;&#x7801;&#xFF0C;&#x4E0D;&#x6DFB;&#x52A0;&#x53EF;&#x80FD;&#x4F1A;&#x51FA;&#x73B0;&#x4E71;&#x7801;
text = pd.read_html(url, encoding="utf-8", header=0)
text

运行可得以下数据：

爬取一个网站中的多个表格

二、将表格展示出来

python重要内置函数:enumerate
enumerate函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中。

#&#x5229;&#x7528;for&#x5FAA;&#x73AF;&#x5C06;&#x6240;&#x6709;&#x8868;&#x683C;&#x904D;&#x5386;&#x51FA;&#x6765;
for i,a in enumerate(text):
    print('&#x7B2C;',i,'&#x4E2A;&#x8868;&#x683C;')         #&#x6CE8;&#x610F;&#xFF1A;&#x5B57;&#x7B26;&#x4E32;&#x4E0E;&#x53D8;&#x91CF;&#x8FDE;&#x63A5;&#x8981;&#x7528;&#x9017;&#x53F7;&#x201C;&#xFF0C;&#x201D;&#xFF0C;&#x5B57;&#x7B26;&#x4E32;&#x4E0E;&#x5B57;&#x7B26;&#x4E32;&#x62FC;&#x63A5;&#x624D;&#x7528;&#x201C;+&#x201D;&#x53F7;
    display(a)                    #display&#x8FD9;&#x91CC;&#x662F;&#x7528;&#x6765;&#x8F93;&#x51FA;&#x8868;&#x683C;&#x7684;&#xFF0C;&#x800C;print()&#x662F;&#x5C5E;&#x4E8E;python&#x5185;&#x7F6E;&#x51FD;&#x6570;&#x4E0D;&#x80FD;&#x8F93;&#x51FA;&#x8868;&#x683C;&#x7684;

运行可得以下数据：

爬取一个网站中的多个表格

三、取出表格

# &#x5217;&#x8868;&#x4E2D;&#x7528;[]&#x8BBF;&#x95EE;&#x5143;&#x7D20;&#xFF0C;&#x8FD9;&#x91CC;&#x662F;&#x53D6;&#x51FA;&#x8FD9;&#x4E2A;&#x5217;&#x8868;&#x4E2D;&#x7B2C;10&#x4E2A;&#x8868;&#x683C;
all_table=text[10]
all_table

运行可得以下数据：

爬取一个网站中的多个表格

四、输出成excel表格

单页输出：xx.to_excel("文件名")
多页sheet表格输出到一个excel文件中：使用pandas模块中pd.ExcelWriter
excel文件已经存在并且里边有内容，输出数据会覆盖掉原有内容
excel文件不存在，pd.ExcelWriter会自动生成一个新的excel文件

这里采用单页输出

all_table.to_excel("&#x5168;&#x7403;&#x72EC;&#x89D2;&#x517D;&#x4F01;&#x4E1A;.xlsx")

运行可以在文件夹中找到这个：

爬取一个网站中的多个表格

Original: https://www.cnblogs.com/L-hua/p/14940866.html
Author: L-L
Title: 爬取一个网站中的多个表格

爬取一个网站中的多个表格

一、导入url

运行可得以下数据：

二、将表格展示出来

运行可得以下数据：

三、取出表格

运行可得以下数据：

四、输出成excel表格

运行可以在文件夹中找到这个：

100天精通Python（数据分析篇）——第68天：Pandas数据清洗函数大全

Python代码加速100倍，针对Excel自动化处理的加速实战！

Python+Socket实现多人聊天室，功能：好友聊天、群聊、图片、表情、文件等

python–飞机大战

【紧急情况】：回宿舍放下书包的我，花了20分钟敲了一个抢购脚本

[Python]实现短信验证码的发送

python学生成绩管理系统【完整版】

Python or html爱心代码（听说最近很火）

学生信息管理系统（Python）完整版

自动化测试——selenium（完结篇)

【Python】向量叉积和凸包 | 引射线法 | 判断点是否在多边形内部 | 葛立恒扫描法 | Cross Product and Convex Hul

Python图像处理【3】Python图像处理库应用

Anaconda超详细安装教程（Windows环境下）

Python爬虫详解（一看就懂）

11月编程排行榜来了，Python依旧占据榜首

Python安装教程-史上最全

＜人生重开模拟器＞——《Python项目实战》

python一键采集高质量陪玩，心动主播随心选……

Python 入门的60个基础练习

值得苦练的100道Python经典练手题，（附详细答案）

机器学习算法、Python、数据分析、学习资料 & 面试大汇总（免费送）

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30