親子日記APP
|
免費申請
|
登入
mini box 迷你盒子
這裡是工程師的筆記資料.
部落格
相簿
APP日記
書籤
標籤:nidBox 中所有
搜尋引擎
相關日記
中国政府的网络封锁技术方案与网民的反网络封锁技术方案
mini
中国政府的网络封锁技术方案与网民的反网络封锁技术方案http://www.zuola.com/weblog/?p=1353這篇介紹中國大陸的 GFW 長城防火牆 (Great Fire Wall) 的運作原理以及避免被「黑掉」的方法這篇也供參考我们目前所知的GFW(长城防火墙)http://...
逮惡劣的 robot
mini
有些惡劣的 robot 不遵守 robots.txt 的規則網頁亂抓一通 (通常是都對岸的)這種 robot 會有的特徵: 不以真實的 User Agent Name 出現,常偽裝成 IE,如 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) 同一秒鐘抓取數個頁面,或以 1~3秒的速度�...
Great FireWall ,簡稱 GFW
mini
Great FireWall ,簡稱 GFW中國防火牆 或 中國國家防火牆、長城防火牆GFW技术评论 --- 蠻多資料的深入理解GFW:内部结构 问题: GFW计算规模有多大?事实: 2007年机群规模进一步扩大,北京增至360节点,上海增至128节点,哈尔�...
關鍵字、股市分析
mini
前一陣子有個新聞好像是美國的疾病管制局之類的跟 google 合作從關鍵字資料中,來分析目前流行病的狀況例如某段時間內可能有很多人搜尋感冒...看來關鍵字的應用還滿廣的管理 google、yahoo 關鍵字的工程師也許可以從最即時的...
筆記:robots.txt 管理搜尋引擎的爬蟲動作
mini
避免爬蟲在短時間內大量抓取網頁可以設定延遲時間例如 5 是指每五秒才能抓取一頁(不過,網路上的爬蟲種類眾多,也有可能同一秒鐘有數隻爬蟲同時來抓取網頁)User-agent: *Crawl-delay: 5 拒絕所有爬蟲User-agent: *Disallow: / 若要禁止�...