博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python3爬虫04(其他例子,如处理获取网页的内容)
阅读量:2243 次
发布时间:2019-05-09

本文共 2219 字,大约阅读时间需要 7 分钟。

#!/usr/bin/env python # -*- coding:utf-8 -*- import os import re import requests from bs4 import NavigableString from bs4 import BeautifulSoup res=requests.get("https://www.qiushibaike.com/") qiushi=res.content soup=BeautifulSoup(qiushi,"html.parser") duanzis=soup.find_all(class_="content") for i in duanzis:     duanzi=i.span.contents[0]     # duanzi=i.span.string     print(duanzi)     # print(i.span.string) res=requests.get("http://699pic.com/sousuo-218808-13-1-0-0-0.html") image=res.content soup=BeautifulSoup(image,"html.parser") images=soup.find_all(class_="lazy") for i in images:     original=i["data-original"]     title=i["title"]     # print(title)     # print(original)     # print("")     try:         with open(os.getcwd()+"\\jpg\\"+title+'.jpg','wb') as file:             file.write(requests.get(original).content)     except:         pass r = requests.get("http://699pic.com/sousuo-218808-13-1.html") fengjing = r.content soup = BeautifulSoup(fengjing, "html.parser") # 找出所有的标签 images = soup.find_all(class_="lazy") # print images # 返回list对象 for i in images:     jpg_rl = i["data-original"]  # 获取url地址     title = i["title"]           # 返回title名称     print(title)     print(jpg_rl)     print("") r = requests.get("https://www.qiushibaike.com/") r=requests.get("http://www.cnblogs.com/nicetime/") blog=r.content soup=BeautifulSoup(blog,"html.parser") soup=BeautifulSoup(blog,features="lxml") print(soup.contents[0].contents) tag=soup.find('div') tag=soup.find(class_="menu-bar menu clearfix") tag=soup.find(id="menu") print(list(tag)) tag01=soup.find(class_="c_b_p_desc") print(len(list(tag01.contents))) print(len(list(tag01.children))) print(len(list(tag01.descendants))) print(tag01.contents) print(tag01.children) for i in tag01.children:     print(i) print(len(tag01.contents)) for i in tag01:     print(i) print(tag01.contents[0].string) print(tag01.contents[1]) print(tag01.contents[1].string) url = "http://www.dygod.net/html/tv/oumeitv/109673.html" s = requests.get(url) print(s.text.encode("iso-8859-1").decode('gbk')) res = re.findall('href="(.*?)">ftp',s.text) for resi in res:     a=resi.encode("iso-8859-1").decode('gbk')     print(a)

转载于:https://www.cnblogs.com/NiceTime/p/10125289.html

你可能感兴趣的文章
Fiddler 抓包工具总结
查看>>
【雅思】雅思需要购买和准备的学习资料
查看>>
【雅思】雅思写作作业(1)
查看>>
【雅思】【大作文】【审题作业】关于同不同意的审题作业(重点)
查看>>
【Loadrunner】通过loadrunner录制时候有事件但是白页无法出来登录页怎么办?
查看>>
【English】【托业】【四六级】写译高频词汇
查看>>
【托业】【新东方全真模拟】01~02-----P5~6
查看>>
【托业】【新东方全真模拟】03~04-----P5~6
查看>>
【托业】【新东方托业全真模拟】TEST05~06-----P5~6
查看>>
【托业】【新东方托业全真模拟】TEST09~10-----P5~6
查看>>
【托业】【新东方托业全真模拟】TEST07~08-----P5~6
查看>>
solver及其配置
查看>>
JAVA多线程之volatile 与 synchronized 的比较
查看>>
Java集合框架知识梳理
查看>>
笔试题(一)—— java基础
查看>>
Redis学习笔记(三)—— 使用redis客户端连接windows和linux下的redis并解决无法连接redis的问题
查看>>
Intellij IDEA使用(一)—— 安装Intellij IDEA(ideaIU-2017.2.3)并完成Intellij IDEA的简单配置
查看>>
Intellij IDEA使用(二)—— 在Intellij IDEA中配置JDK(SDK)
查看>>
Intellij IDEA使用(三)——在Intellij IDEA中配置Tomcat服务器
查看>>
Intellij IDEA使用(四)—— 使用Intellij IDEA创建静态的web(HTML)项目
查看>>