親子日記APP
|
免費申請
|
登入
mini box 迷你盒子
這裡是工程師的筆記資料.
部落格
相簿
APP日記
書籤
標籤:
搜尋引擎
的相關文章
瀏覽方式:
摘要列表
|
標題列表
|
全站 《搜尋引擎》 相關
筆記:robots.txt 管理搜尋引擎的爬蟲動作
2022
02
23
08:20
避免爬蟲在短時間內大量抓取網頁 可以設定延遲時間
例如 5 是指每五秒才能抓取一頁
(不過,網路上的爬蟲種類眾多,也有可能同一秒鐘有數隻爬蟲同時來抓取網頁) User-agent: * Crawl-delay: 5 拒絕所有爬蟲 User-agent: * Disallow: /
若要禁止特定爬蟲,則是: User-agent: Baiduspider #爬蟲名稱...
繼續閱讀»
分類:
web開發
/
留言(0)
逮惡劣的 robot
2011
03
14
11:23
有些惡劣的 robot 不遵守 robots.txt 的規則
網頁亂抓一通 (通常是都對岸的)
這種 robot 會有的特徵: 不以真實的 User Agent Name 出現,常偽裝成 IE,如 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) 同一秒鐘抓取數個頁面,或以 1~3秒的速度抓網頁 (不符合正常人點閱習慣,像趨勢Trend 放出來的 robot 就是這樣..很討厭) ...
繼續閱讀»
分類:
搜尋引擎
/
留言(8)
關鍵字、股市分析
2010
05
29
09:00
前一陣子
有個新聞
好像是美國的疾病管制局之類的跟 google 合作
從關鍵字資料中,來分析目前流行病的狀況
例如某段時間內可能有很多人搜尋感冒...
看來關鍵字的應用還滿廣的
管理 google、yahoo 關鍵字的工程師
也許可以從最即時的搜尋資料中,看出該放空?還是買多?
可能比任何股市分析師、股票分析軟體、選股工具、還快速吧!
...
繼續閱讀»
分類:
雜七雜八
/
留言(0)
Great FireWall ,簡稱 GFW
2010
02
22
15:04
Great FireWall ,簡稱 GFW
中國防火牆 或 中國國家防火牆、長城防火牆
GFW技术评论 --- 蠻多資料的
深入理解GFW:内部结构
问题:
GFW计算规模有多大?
事实:
2007年机群规模进一步扩大,北京增至360节点,上海增至128节点,哈尔滨增至64节点,共计552节点。机...
繼續閱讀»
分類:
電腦
/
留言(2)
sitemap 產生器
2009
11
18
20:22
手工產生 sitemap 方法 到 XML-Sitemaps 線上產生 sitemap.xml 檔案 網址: http://www.xml-sitemaps.com/
按 Start 開始後,大約需要 3~10 分鐘的時間掃描你的網站 (視網站內的連結、資料量) 最多 500頁 完成後會有五種檔案: sitemap.xml <----下載這一個即可 sitemap.xml.gz ror.xml sitemap.html urllist.txt XML-Sitemaps 網站還有一個服務: HTTP Headers Viewer 輸入任一網站的網址,即可顯示該網站的 HTTP Header 資料 http://www.xml-si...
繼續閱讀»
分類:
web開發
/
留言(2)
中国政府的网络封锁技术方案与网民的反网络封锁技术方案
2009
03
18
16:44
中国政府的网络封锁技术方案与网民的反网络封锁技术方案
http://www.zuola.com/weblog/?p=1353
這篇介紹中國大陸的 GFW 長城防火牆 (Great Fire Wall) 的運作原理
以及避免被「黑掉」的方法
這篇也供參考
我们目前所知的GFW(长城防火墙)
http://www.bokee.org/archives/17/
...
繼續閱讀»
分類:
web開發
/
留言(0)