博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
理解爬虫原理
阅读量:4973 次
发布时间:2019-06-12

本文共 1584 字,大约阅读时间需要 5 分钟。

作业来源:

一. 简单说明爬虫原理

  爬虫即是从网络中爬取数据,就python为例,利用requests模块访问网址,将访问后返回的html保存下来,并利用bs4进行分析,将想要的数据保存下来。

二. 理解爬虫开发过程

1.简要说明浏览器工作原理

  从用户键入网址回车确认后,浏览器向服务器发送http请求,服务器接收到请求后相应的业务逻辑处理,并返回数据,浏览器接收到数据后,便开始解析返回来的数据,并生成DOM模型,渲染界面。

2.使用 requests 库抓取网站数据

  运行代码:

get=requests.get('http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0328/11086.html') get.encoding='utf-8' print(get.text)

  运行效果:

 

3.了解网页

  运行代码:

    
Title
id 姓名 年龄

  

4.使用 Beautiful Soup 解析网页

  运行代码:

import bs4from bs4 import BeautifulSoupget=requests.get('http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0328/11086.html')get.encoding='utf-8'soup=BeautifulSoup(get.text,'html.parser')

  

三.提取一篇校园新闻的标题、发布时间、发布单位、作者、点击次数、内容等信息

  运行代码:

import requests import bs4 from bs4 import BeautifulSoup from datetime import datetime import re get=requests.get('http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0328/11086.html') get.encoding='utf-8' soup=BeautifulSoup(get.text,'html.parser') title=soup.select('.show-title')[0].text; head=soup.select('.show-info')[0].text.split() datetime=datetime.strptime(head[0][5:]+" "+head[1],'%Y-%m-%d %H:%M:%S') time = re.findall("\d+",requests.get('http://oa.gzcc.cn/api.php?op=count&id=11086&modelid=80').text.split(';')[3])[0] content=soup.select('.show-content')[0].text print('标题:'+title) print('发布时间:'+str(datetime)) print(head[4]) print(head[2]) print('点击次数:'+time) print(content)

  运行效果:

 

转载于:https://www.cnblogs.com/97lzc/p/10625923.html

你可能感兴趣的文章
Power BI 安装注册教程
查看>>
RuntimeException和Exception区别
查看>>
C++外观模式和组合模式
查看>>
20180603_升级Win10后,远程连接桌面连接,出现身份验证错误!
查看>>
fiddler学习笔记&&基本使用
查看>>
python3+selenium3.13的简单操作
查看>>
列表和表格css样式
查看>>
zabbix监控系列(4)之zabbix报警邮件无法发送
查看>>
Canvas绘制时钟
查看>>
python3爬虫-1
查看>>
android 分享到QQ空间的全部操作
查看>>
传智播客学习视频之HTTP协议详解(一)
查看>>
MassTransit 学习
查看>>
web的奇怪问题
查看>>
VC CVSFLEXGrid基本用法
查看>>
wc 命令使用说明
查看>>
Java中4大基本加密算法解析
查看>>
降阶法计算行列式方法有个地方有Bug(原文也已更正,此为更正后部分)
查看>>
基于C++ 苹果apns消息推送实现(2)
查看>>
Android结构分析Android智能指针(两)
查看>>