Python3爬虫入门基础与正则表达式应用技巧有哪些？

2026-04-30 00:175阅读0评论SEO问题

内容介绍
文章标签
相关推荐

本文共计4452个文字，预计阅读时间需要18分钟。

Python入门系列之爬虫教程开篇，分享给家长；爬虫的简单来说，就是抓取网页的数据进行分析处理；本章主要入门，了解‘几’个基本概念。

前面的python3入门系列基本上也对python入了门，从这章起就开始介绍下python的爬虫教程，拿出来给大家分享；爬虫说的简单，就是去抓取网路的数据进行分析处理；这章主要入门，了解几个爬虫的小测试，以及对爬虫用到的工具介绍，比如集合，队列，正则表达式；

用python抓取指定页面：

代码如下：

import urllib.request url= "www.baidu.com" data = urllib.request.urlopen(url).read()# data = data.decode('UTF-8') print(data)

urllib.request.urlopen(url) 官方文档返回一个 www.baidu.com/s?" full_url=url+url_values a = urllib.request.urlopen(full_url) data=a.read() data=data.decode('UTF-8') print(data) ##打印出网址： a.geturl()

data是一个字典, 然后通过urllib.parse.urlencode()来将data转换为 ‘word=one+peace'的字符串, 最后和url合并为full_url

python正则表达式介绍：

队列介绍

在爬虫的程序中用到了广度优先级算法，该算法用到了数据结构，当然你用list也可以实现队列，但是效率不高。

阅读全文

标签：python3 爬虫之入门基础