工程实践案例交流坊第二课于2021年6月7日下午两点半在学院415开课。主讲人为我们优秀博士生李伯钊。李伯钊博士从爬虫技术原理、技术与实战案例等方面为大家带来一场精彩的讲座。
讲座伊始,李伯钊博士向我们介绍了爬虫的两种基本方法:第一种为通过解析网页爬取数据,此部分又分为从静态网页与动态网页获取数据,静态网页获取数据是数据固定在HTML文件当中,进而从中获取数据,从动态网页获得数据是数据通过请求加载到网页当中,而请求通常无法监测或存在加密或参数无法推断数据。第二种为通过官方API接口或拦截请求获取数据。随后主讲人又向同学们介绍了如何分析爬虫的请求地址的两种方法:一种是在网页端用谷歌浏览器按F12键后可以看到发送的请求,安卓手机端的抓包工具使用PacketCapture,手机端APP发送的请求都可以拦截到。
在第二部分,李伯钊博士向我们介绍了爬虫所需要的基本技能。首先是前端技术,主要包括控制整个页面的样式的CSS技术、控制网页结构框架与数据的HTML技术、管理网页逻辑的JavaScript技术三项技术。在此部分,主讲人提到可以利用样式选择器、XPath快速从网页中定位标签,获得我们所需数据的位置。另外,主讲人提到爬虫还需了解Json数据格式,这是请求返回的数据格式。在网络技术部分,主讲人则主要讲解了常见网络请求方式:Post与Get的区别,这对之后的获取页面与反爬十分重要。然后,李伯钊博士提到了数据库技术、数据结构及数据容器,这两项技术对我们存储、管理、可视化数据,提高数据管理效率至关重要。最后一项技术为Python代码基础与逻辑,主讲人向我们推荐了菜鸟教程网站的Python教程,并着重提示大家多线程可以明显提高爬虫效率。
课程第三部分为爬虫框架介绍。在此部分主讲人向同学们介绍了request、BeautifulSoup4、Selenium三种方法。Request主要通过header与proxies参数限制请求与登录IP。BeautifulSoup4为从HTML或XML文件中提取数据的Python库,可以帮助解析标签与获取数据。Selenium可以模拟人的点击与滚动事件,是爬取动态页面的重要方法。
在实战案例部分,李伯钊博士为同学们展示了爬取高德地图的POI数据、国家统计局网页爬取区划代码数据、安居客与房天下房产数据与知乎动态网页数据。最后,李伯钊博士为同学们介绍了加上headers(user-agent),随机延时,构建IP代理池、账号池,模拟浏览器与图像识别技术破解验证码五种反爬虫方法。
课程资源获取方式:扫描下方二维码或点击链接。
链接:https://pan.baidu.com/s/1Lm0mR2RgyEPOrD9h6QHeWg
提取码:4vit
文本:李莹
供图:段芷薏