資料分割與網頁爬蟲(requests, BeautifulSoup,re正規表達式)

Github

  • 資料分割

建立 emil.txt

aa@gmail.com

bb@yahoo.com

cc@gm.nfu.edu.tw

a1@gmail.com

a2@gmail.com

a3@gmail.com

a4@gmail.com

用來分段@以後的網域

先建立輸出 function

# 寫檔用,隔開,也可用tab \t

寫檔結果

  • 網頁爬蟲 requests, BeautifulSoup,re

# 讀取網址

 

# 抓取tag標籤與用正規表達式

PS:要先裝html5lib

到pycharm裡面的Terminal中打 conda install html5lib安裝

 

裝好後就執行

總共有732本書

# 解析 json

# 透過 github API撈取,並抓repository

我的repository

備註:2017/04/27 計算方法分析與設計 課堂筆記

Leave a Reply