2023年6月29日发(作者:)
爬⾍实战(⼀):爬取微博⽤户信息前⾔最近做课设,是⼀个有关个⼈隐私安全的课题,在⽹上找了很多论⽂,最后上海交通⼤学的⼀篇硕⼠论⽂《⾯向社会⼯程学的SNS分析和挖掘》[1] 给了我很多灵感,因为是对个⼈隐私安全进⾏评估,所以我们基于微博社交⽹络获取的数据进⾏分析。以下是该系列第⼀篇⽂章,记录爬取微博⽤户信息的过程。先决条件我们这次的⽬标是爬取微博个⼈⽤户的资料信息和动态信息并保存在 mysql 数据库中。⾸先要对⽹页进⾏⼤致分析,获取爬⾍的先决条件。cookies因为微博对访客进⾏了限制,所以请求⾥⾯没有 cookies 的话动态⽆法抓取完全。故我们也需要获取 cookie:⽤Chrome打开/signin/login;按F12键打开Chrome开发者⼯具;点开“Network”,将“Preserve log”选中,输⼊微博的⽤户名、密码,登录点击Chrome开发者⼯具“Name"列表中的"",点击"Headers",其中"Request Headers"下,"Cookie"后的值即为我们要找的cookie值,复制即可UID⽤户资料页⽹页分析获取了 uid 和 cookie ,我们来对⽹页进⾏详细分析。⽤户资料页源码分析因为资料页数据量很少,分析和处理都⽐较容易,所以⾸先从这⾥下⼿。由上⼀张图⽚可以看出,资料页分成 **基本信息 ,学习经历,⼯作经历,其他信息 ** 四个模块,我们只需要前三个模块就可以了。分析源码的html ,我们发现
class="tip"> 刚好可以标识四个信息模块,⽽对于每个模块内部的资料条⽬,class="c" 可以进⾏⼀⼀标识,如图所⽰:资料页源码使⽤正则表达式进⾏匹配,关于正则表达式的使⽤⽅法,请看我的另⼀篇⽂章。代码如下:tip = e(r'class="tip">(.*?)>
评论列表(0条)