館藏書目查詢 > 書目資料
借閱次數 :

網站擷取 : 使用Python

  • 點閱:140
  • 評分:0
  • 評論:0
  • 引用:0
  • 轉寄:0



  • 書籤:
轉寄 列印
第1級人氣樹(0)
人氣指樹
  • 館藏
  • 簡介
  • 作者簡介
  • 收藏(0)
  • 評論(0)
  • 評分(0)

在現代網路蒐集資料「本書涵蓋的工具與範例,讓我輕易把好幾個重複的工作自動化,騰出時間解決更多有趣的問題。這是本重視成果、內容從實務問題與解法出發,又能很快讀完的好書。」— Eric VanWyk, 電子計算機工程師,麻州歐林工程學院 如果程式設計是魔術,那麼網站擷取當然是一種魔法。你可以撰寫簡單的自動化程式查詢網頁伺服器、請求資料、並解析所需的資訊。本書不只介紹網頁擷取,還包含擷取各種現代網站資料的詳盡指南。本書第一部份專注於網站擷取機制:使用Python從網頁伺服器取得資料、執行伺服器回應的基本處理工作、以及與網站的自動化互動。第二部分探索適用於不同擷取場景的各種工具與應用程式。‧解析複雜HTML網頁‧以Scrapy架構開發爬行程序‧學習爬行資料的儲存方式‧從文件讀取與提煉資料‧清理格式不良的資料‧以自然語言讀寫‧透過表單與登入的爬行‧JavaScript與API爬行‧使用影像文字識別軟體‧避開爬行陷阱與機器人阻擋程序‧使用爬行程序測試你的網站

Ryan Mitchell 是波士頓HedgeServ的資深軟體工程師,為公司開發API與資料分析工具。她畢業於Olin College of Engineering,取得資工學位與Harvard University Extension School的認證。曾任職於Abine,以Python開發爬行程序與自動化工具。為零售、金融、醫療等產業提供網站擷取專案的顧問服務,並曾在Northeastern University與Olin College of Engineering擔任課程顧問和兼職教員。

此功能為會員專屬功能請先登入
此功能為會員專屬功能請先登入
此功能為會員專屬功能請先登入
此功能為會員專屬功能請先登入