前言
最近業(yè)余在做一個基于.NET Core的搜索項目,奈何基層代碼寫好了,沒有看起來很華麗的數(shù)據(jù)供測試。很巧的也是博客搜索,于是乎想到了博客園。C#也能做做頁面數(shù)據(jù)抓取的,不過在博客園看到的大部分都是python實現(xiàn),所以就臨時想了一下看看python到底是什么東東,不看基礎語法,不看語言功能,直接上代碼,哪里不會搜哪里。代碼完成總共用時大概4個小時,其中搭建環(huán)境加安裝BeautifulSoup大概1個小時。解析HTML用時間最多了,邊看demo邊解析,大概2個小時,剩下的時間就是調試加保存數(shù)據(jù)了。
環(huán)境搭建
既然用python,那么自然少不了語言環(huán)境。于是乎到官網(wǎng)下載了3.5版本的。安裝完之后,隨機選擇了一個編輯器叫PyCharm,話說python編輯器還真挺多的。由于本人是小白,所以安裝事項不在過多贅述。
建好項目,打開編輯器,直接開工。本來之前用C#寫的時候,大體思路就是獲取網(wǎng)頁內容,然后正則匹配。后來發(fā)現(xiàn)網(wǎng)上的帖子也很多。不過在搜索過程中發(fā)現(xiàn),不建議用正則來匹配HTML。有正好我的正則不太好,所以我就搜了一下HTML解析工具,果不其然,人家都做好了,直接拿來用吧。沒錯就是這個東東:BeautifulSoup 。安裝也很簡單,不過中間出了個小插曲,就是bs4沒有。繼續(xù)搜,然后需要用pip安裝一下就好了。(當然我并不知道ps4和pip是什么鬼)
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動安全 [無線安全]玩轉無線電——不安全的藍牙鎖 2017-07-26
- 消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標分割】 2017-07-26
- 詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實現(xiàn)JSON轉Model - HandyJSON使用講解 2017-07-26
- 阿里移動安全 Android端惡意鎖屏勒索應用分析 2017-07-26
- 集合結合數(shù)據(jù)結構來看看(二) 2017-07-26