什么是URL?
URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。
互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
URL的组成部分
URL的格式由三部分组成:
- 第一部分是协议(或称为服务方式)。
- 第二部分是存有该资源的主机IP地址(有时也包括端口号)。
- 第三部分是主机资源的具体地址,如目录和文件名等。
例如:http://www.baidu.com/image/1.png
爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。
URL完整格式
scheme://host[:port#]/path/…/[?query-string][#anchor]
参数介绍
- scheme:协议(例如:http, https, ftp)
- host:服务器的IP地址或者域名
- port:服务器的端口(如果是走协议默认端口,缺省端口80)
- path:访问资源的路径
- query-string:参数,发送给http服务器的数据
- anchor:锚(跳转到网页的指定锚点位置)
端口
- 微信的端口为80
- 数据库的端口为3306
- 邮箱端口为25
- HTTPS的端口号为443 例如https://www.baidu.com:443
- HTTP的端口号为80 例如http://www.baidu.com:80
注意:http的80和https的443端口在写url的时候可以省略
案例
- ftp://192.168.0.116:8080/index
- http://www.baidu.com
- http://item.jd.com/11936238.html#product-detail