python开发

使用selenium获取网址所加载所有资源url列表信息

抓取数据时,经常遇到有的数据是通过ajax异步调取的,如何通过selenium获取网址所加载的全部请求url地址了,即我们打开开发者工具里面network中记录的请求url列表,可以参考下面代码# -*- coding=utf-8 -*- import json import time from selenium import webdriver from selenium.webdriver.chrome.

python3中实现对url链接的编码与解码,将%3A和%2F转换为 : 和 /

使用python进行抓包的时候需要的一个链接,“https%3A%2F%2Fwww.phper163.com%2Flist%2F6.html”,这是一种url编码过的链接,其中“%3A”表示“:”、“%2F”代表“/”。URL为何要编码、解码?为了避免url中有的字符造成歧义问题。例如,url参数字符串中使用key=value键值对这样的形式来传参,键值对之间以&符号分隔,如/s?q=php&page=2。如果你的value字符串中包含了=或者&,那么势必会造成接收Url的服务器解析错误,因此必须将引起歧