# yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例

Python94

大家好,我是皮皮。

一、前言

前几天在Python钻石交流群【海南菜同学】问了一个​ ​Python​​网络爬虫的问题,后来【瑜亮老师】在解答过程中给了一个代码,代码如下:

url = "http://zw.hainan.gov.cn/wssc/ec/jlyhnkj.html"resp = requests.get(url)text = resp.textparse = etree.HTML(text)price = parse.xpath("//div[@class='productlist']/ul/li/div[4]/text()")# 直接使用列表推导式,去掉冗余数据price = [i.strip() for i in price if i.strip()]print(price)# 为了方便统计,再去掉¥符号,再转换成数字# price = [int(float(i.replace('¥', '').replace(',', ''))) for i in price]# 或者用re.sub去掉多余符号,再转换成数字,上下两种方法,选一个就行# 需要import re# price = [int(float(re.sub(r'[¥,]', '', i))) for i in price]print(price)

大家针对这个代码,提出了一个正则表达式处理的问题,这里给大家一起分享下。

# yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例

二、实现过程

这里【瑜亮老师】写了一个例子,比如"身高180.3cm"这种,取180.3?如下所示:

# yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例

这里【🌑中华小矿工】给了一个正则表达式代码,如下所示:

\d+\.\d+

# yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例

后来【瑜亮老师】针对上述代码,做了一个优化,代码如下所示:

d = ["身高180.3cm", "身高180.3", "身高180.3厘米", "higt180.3cm", "higt180.3厘米", "身高180.3cm", "higt180cm"]for s in d:    r = re.findall(r'\d+\.\d+|\d+', s)    print(r)

稍作修改,就可以不论浮点数或者整数都适用的。

# yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例

完美地解决了粉丝的问题:

# yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例

方法多多!

三、总结

大家好,我是皮皮。这篇文章主要盘点了一个​ ​Python​​网络爬虫的问题,文中针对该问题给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

最后感谢粉丝【心田有垢生荒草】提问,感谢【瑜亮老师】、【🌑中华小矿工】给出的思路和代码解析,感谢【Engineer】、【Jason】、【海南菜同学】、【dcpeng】等人参与学习交流。

Original: https://blog.51cto.com/u_13389043/5635901
Author: Python进阶者
Title: # yyds干货盘点 # 盘点一个正则表达式在Python网络爬虫中的应用案例