前言

  最近業(yè)余在做一個基于.NET Core的搜索項目,奈何基層代碼寫好了,沒有看起來很華麗的數(shù)據(jù)供測試。很巧的也是博客搜索,于是乎想到了博客園。C#也能做做頁面數(shù)據(jù)抓取的,不過在博客園看到的大部分都是python實現(xiàn),所以就臨時想了一下看看python到底是什么東東,不看基礎語法,不看語言功能,直接上代碼,哪里不會搜哪里。代碼完成總共用時大概4個小時,其中搭建環(huán)境加安裝BeautifulSoup大概1個小時。解析HTML用時間最多了,邊看demo邊解析,大概2個小時,剩下的時間就是調試加保存數(shù)據(jù)了。

環(huán)境搭建

  既然用python,那么自然少不了語言環(huán)境。于是乎到官網(wǎng)下載了3.5版本的。安裝完之后,隨機選擇了一個編輯器叫PyCharm,話說python編輯器還真挺多的。由于本人是小白,所以安裝事項不在過多贅述。

  萬碼學堂,電腦培訓,計算機培訓,Java培訓,JavaEE開發(fā)培訓,青島軟件培訓,軟件工程師培訓

  建好項目,打開編輯器,直接開工。本來之前用C#寫的時候,大體思路就是獲取網(wǎng)頁內容,然后正則匹配。后來發(fā)現(xiàn)網(wǎng)上的帖子也很多。不過在搜索過程中發(fā)現(xiàn),不建議用正則來匹配HTML。有正好我的正則不太好,所以我就搜了一下HTML解析工具,果不其然,人家都做好了,直接拿來用吧。沒錯就是這個東東:BeautifulSoup 。安裝也很簡單,不過中間出了個小插曲,就是bs4沒有。繼續(xù)搜,然后需要用pip安裝一下就好了。(當然我并不知道ps4和pip是什么鬼)

延伸閱讀

學習是年輕人改變自己的最好方式-Java培訓,做最負責任的教育,學習改變命運,軟件學習,再就業(yè),大學生如何就業(yè),幫大學生找到好工作,lphotoshop培訓,電腦培訓,電腦維修培訓,移動軟件開發(fā)培訓,網(wǎng)站設計培訓,網(wǎng)站建設培訓學習是年輕人改變自己的最好方式