雖然我是不用微博的,但由于某種原因,手機(jī)端的微博會(huì)時(shí)不時(shí)地推送幾條我必須看的消息過(guò)來(lái)。微博被看久了,前幾天又看到 語(yǔ)亮 - 簡(jiǎn)書(shū) 一年前的的微博爬蟲(chóng),就有了對(duì)某人微博深入挖掘的想法。
之前語(yǔ)亮的爬蟲(chóng)不能抓取用戶(hù)一條微博的多張圖片,一年后微博界面也發(fā)生了一些變化,決定還是參考語(yǔ)亮爬取手機(jī)端界面的方法更新下代碼,同時(shí)加上一點(diǎn)小小的數(shù)據(jù)分析。
主要想法是抓取指定用戶(hù)的全部微博原創(chuàng)內(nèi)容和全部原創(chuàng)圖片保存到本地,然后對(duì)原創(chuàng)微博進(jìn)行分類(lèi),并統(tǒng)計(jì)用戶(hù)最?lèi)?ài)使用的表情、最常使用的詞語(yǔ)和微博中提到的人名。
(經(jīng)過(guò)驗(yàn)證妹子的微博大多集中在美食類(lèi)、購(gòu)物類(lèi)、美妝類(lèi)和旅游類(lèi))
下面說(shuō)下爬取步驟、展示結(jié)果以及詳細(xì)代碼:
因?yàn)镻C端的微博是JS內(nèi)容不好爬取,所以還是選擇了chrome打開(kāi)微博手機(jī)版進(jìn)行爬取,簡(jiǎn)單粗暴無(wú)障礙。
1、獲取自己的cookie,利用chrome瀏覽器。
在chrome 中打開(kāi)微博手機(jī)版,F(xiàn)12打開(kāi)開(kāi)發(fā)者工具,勾選Network的Preserve log項(xiàng),然后輸入賬號(hào)密碼登陸自己的微博。
在m.weibo.cn->Headers->Cookie 復(fù)制下自己的cookie,一會(huì)需要粘貼到代碼中運(yùn)行。