心情碎语:暂无碎语

您的位置:慕轲博客 >特效代码> 网络爬虫与信息提取

网络爬虫与信息提取

网络爬虫与信息提取

如果想要爬取的网站不允许通过python等工具提取信息,可以通过如下方法提取

 import requests

url = "网站链接"

try:

    kv = {'user-agent':'Mozilla/5.0'}   // Mozilla/5.0 是标准的浏览器,此处是将 user-agent 里的替换成 Mozilla/5.0.

    r = requests.get(url,headers=kv) //

    r.raise_for_status()

    r.encoding = r.apparent_encoding

    print("r.text[:1000]")

except:

    print (''爬取失败")

注意 向服务器发出请求的报文头部。

 r.request.headers

{'User-Agent': 'python-requests/2.18.1', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

   经过  kv = {'user-agent':'Mozilla/5.0'}  替换为

r.request.headers

{'user-agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

---

转载请注明本文标题和链接:《网络爬虫与信息提取