| 【💡TL;DR / 文章核心摘要】 robots.txt 是一個必須放置於網站根目錄下的純文字檔案(檔名必須全小寫),用來規範搜尋引擎爬蟲(如 Googlebot)與新興 AI 機器人,哪些網頁可以存取,哪些應避免。 其核心用途包含: – 🚦管理網站流量與檢索預算。 – 🛡️避免非重要頁面被錯誤索引(如隱私頁面、後台、測試環境)。 – 🧠自主管理 AI 爬蟲行為(決定放行或阻擋未經授權的 AI 底層模型訓練抓取)。 |
在執行網站 SEO 優化時,我們常說「索引」是獲得自然流量的先決條件;但在此之前,搜尋引擎的爬蟲(Spider / Crawler)必須先能夠順利且有效率地「檢索(Crawl)」你的網站。這就像是邀請貴賓來參觀你的博物館,你必須先確保大門是敞開的,且館內的動線標示清晰。
然而,隨著網站規模逐漸擴大,或是近期 AI 搜尋引擎(如 ChatGPT、Perplexity、Google AI Overviews)的快速崛起,網站管理員面臨了一個全新的複雜課題:我們不僅要精準引導傳統搜尋引擎來抓取有價值的網頁,更要嚴格防止海量的 AI 爬蟲無限制地消耗伺服器資源,或是未經授權就擅自擷取你的原創內容。
這時候,建立一個正確、嚴謹且符合最新 AI 趨勢的 robots.txt 就顯得至關重要。它不再只是單純的 SEO 基礎建設,更是保護網站資產的第一道防線🛡️。
本文將帶你從零開始釐清 robots.txt 的核心觀念、基礎語法,並深入探討如何在 AEO(Answer Engine Optimization)與 GEO(Generative Engine Optimization)的 AI 時代,制定最適合你網站的爬蟲控制策略。不再苦惱於該不該封鎖 AI,一次搞懂所有的設定細節與實務避坑指南!
robots.txt 是什麼?
簡單來說,robots.txt 是一個純文字檔案(副檔名為 .txt),它就像是網站專屬的「警衛室」或「佈告欄」。
當任何搜尋引擎的爬蟲(如 Googlebot、Bingbot)或 AI 機器人來到你的網站時,它們的第一站一定會先尋找並讀取這個檔案。這個檔案內包含了「網站排除標準(Robots Exclusion Protocol, REP)」,這是一種國際通用的網路禮儀協議,明確告訴爬蟲們:
- 🟢你可以去哪裡(哪些頁面或目錄是開放抓取的,歡迎光臨)
- 🔴你不准去哪裡(哪些機密、重複或無價值的頁面禁止進入,請止步)
- 🗺️我的網站地圖在哪裡(Sitemap 的完整路徑,讓爬蟲能快速掌握全站結構)
【實務上的小提醒】
- robots.txt 必須放置在網站的根目錄(Root Directory)底下。舉例來說,如果你的網域是 https://www.example.com,那麼 robots.txt 的標準網址就必須是 https://www.example.com/robots.txt。如果放在子目錄下(例如 https://www.example.com/blog/robots.txt),爬蟲是找不到也不會理會的。
- robots.txt 是一個公開的檔案。任何人在瀏覽器網址列輸入該路徑,都能看到你的設定規則。因此,絕對不要在 robots.txt 中暴露極度機密的內部網址結構,以免反而成為駭客攻擊的探路地圖。

為什麼網站強烈建議設置 robots.txt?
或許你會問:「我的網站內容都希望被 Google 看到,那我是不是就不需要 robots.txt 了?」
這是一個極度常見的迷思。即使你希望所有內容都被索引,實務上仍「強烈建議」配置 robots.txt,主要基於以下三大 SEO 效益與伺服器資源管理的考量:
1. 最佳化檢索預算(Crawl Budget)
搜尋引擎分配給每個網站的「檢索預算」是有限的。所謂的檢索預算,是指 Googlebot 在一定時間內願意且能夠在你網站上抓取的網址數量。如果你的網站有大量的動態網址、站內搜尋結果頁(如 ?q=keyword)、或是購物車與會員登入頁面,爬蟲可能會將寶貴的時間浪費在這些對 SEO 毫無幫助的頁面上。
情境模擬:想像你開了一家擁有上萬件商品的電商網站,因為顏色、尺寸的排列組合,產生了數十萬個帶有參數的網址。如果沒有 robots.txt,Googlebot 可能每天都在抓取這些無限生成的重複頁面,導致你辛苦撰寫的最新部落格文章或主打新品,遲遲等不到爬蟲來抓取索引。透過 robots.txt 將這些低價值頁面 Disallow,能引導 Googlebot 集中火力抓取真正能帶來流量的文章與產品頁。

2. 保護測試環境與避免重複內容災難
在網站改版、上線前的「測試機(Staging site)」階段,如果沒有透過 robots.txt 封鎖全站,很容易被 Google 提前索引。這會導致正式上線後出現嚴重的「重複內容(Duplicate Content)」問題,因為 Google 會看到兩個完全一模一樣的網站存在於不同的網域,進而互相瓜分排名權重。此外,若使用者不小心透過搜尋引擎進入測試站並進行假消費,後續的客服處理將會是一場災難。後台登入路徑(如 WordPress 的 /wp-admin/)也建議進行阻擋,減少被暴力破解的機率。
3. 減輕伺服器負載與阻擋惡意消耗
除了傳統搜尋引擎,網路上充斥著各種第三方數據抓取工具(如 AhrefsBot, SemrushBot,甚至是一些不知名的價格監控爬蟲)以及現今海量的 AI 訓練爬蟲。如果不加限制,當這些爬蟲為了盡快取得資料而同時湧入時,它們發出的大量 Request 極可能拖垮你的伺服器效能(CPU 與 RAM 滿載),導致真實用戶在瀏覽網站時感到異常緩慢,甚至出現 502/503 錯誤畫面。合理的 robots.txt 設定能有效管控這些非必要的流量。
robots.txt 的基本語法與規則解析
要撰寫 robots.txt,你不需要具備高深的程式能力,只需掌握以下幾個核心指令與符號即可。請注意,robots.txt 的語法是非常嚴謹的,少一個空白或斜線都可能導致規則失效。

robots.txt 四大核心指令
- User-agent(宣告對象):
指定接下來的規則是寫給哪一個特定的爬蟲看。常見的有 Googlebot、Bingbot。若要套用給所有爬蟲,則使用星號 *。通常一個 robots.txt 會將特定爬蟲的規則寫在前面,通用規則 User-agent: * 寫在最後面。 - Disallow(禁止存取):
告訴爬蟲「不要」抓取指定的目錄、頁面或參數。這是一個相對路徑的設定,必須以斜線 / 開頭。 - Allow(允許存取):
告訴爬蟲可以抓取指定路徑。通常會與 Disallow 搭配使用,用來在一個被封鎖的父目錄中,特別「放行」某個子目錄或檔案,這在精細的權限控制中非常實用。 - Sitemap(網站地圖):
直接告訴爬蟲你的 XML 網站地圖放在哪裡,加速網站內容被發現的速度。這裡必須填寫包含 https:// 的絕對路徑。如果你的網站有多個 Sitemap(例如文章一個、產品一個),你可以寫多行 Sitemap 指令,這完全符合規範。
(註:你也可以使用 # 符號來為 robots.txt 加入註解,爬蟲在讀取時會自動忽略 # 後面的所有文字。)
進階應用:萬用字元與特殊符號
- 星號 *(Wildcard / 任意字元):代表任何長度的字串。例如 Disallow: /*.pdf 表示禁止抓取網站內所有的 PDF 檔案。這在阻擋特定副檔名時非常有效。
- 錢號 $(End of URL / 網址結尾):代表網址的絕對結尾。例如 Disallow: /*.php$ 表示禁止抓取所有以 .php 結尾的網址。但如果網址是帶有參數的 .php?id=1,因為結尾不是 p,所以就不受這條規則限制。
AI 時代的 robots.txt:如何面對 AI 爬蟲與 AEO/GEO?
隨著 ChatGPT、Perplexity 的爆發,以及 Google AI Overviews(AI 摘要)的普及,SEO 已經正式進入了 AEO(解答引擎優化)與 GEO(生成式引擎優化)的時代。搜尋行為正在改變,使用者越來越習慣直接向 AI 索取整理好的答案。
許多內容創作者與品牌端開始面臨一個兩難的抉擇:「我到底該不該在 robots.txt 封鎖這些來勢洶洶的 AI 爬蟲?」
要釐清這個觀念,我們必須先將 AI 爬蟲的「行為目的」分為兩大類,並採取完全不同的應對策略:
1. 用於「訓練大型語言模型(LLM)」的爬蟲(可評估是否封鎖🚫)
這類爬蟲的目的非常具有侵略性:它們會把你的文章完整爬走,拆解成字詞,丟進巨大的資料庫中訓練下一代的 AI 模型。
- 常見 User-agent:GPTBot (OpenAI), Anthropic-ai (Claude), Google-Extended (Google 訓練用), CCBot (Common Crawl 專案)。
- SEO 顧問解析與建議:當這類爬蟲拿走你的資料後,它們不會在未來的對話中給予你任何反向連結(Backlink),也不會為你的網站帶來一絲一毫的流量。它們只是純粹地吸收你的知識產權。如果你不希望自己的原創心血、獨家商業數據被免費拿去訓練 AI,強烈建議可以在 robots.txt 中將其明確封鎖(Disallow)。
2.用於「即時搜尋與解答(Search & Grounding)」的爬蟲(必須開放✅)
這類爬蟲的行為類似於傳統搜尋引擎。當使用者在 ChatGPT 介面中觸發「搜尋網路」功能,或是 Perplexity 在整理即時答案時,它們會派出這類爬蟲去網路上尋找最新的資訊。它們會擷取你的網頁內容作為參考來源,並且最重要的是:它們會在生成的答案中,明確附上你的網站連結(Citations)。
- 常見 User-agent:ChatGPT-User (OpenAI 網頁搜尋), PerplexityBot (Perplexity 搜尋)。
- SEO 顧問解析與建議:在 GEO 與 AEO 的趨勢下,成為 AI 的「參考來源」是未來獲取高意圖流量的新紅利。強烈建議「不要」封鎖這類爬蟲(保持 Allow)。如果你把它們擋在門外,你將從 AI 搜尋的版圖中徹底消失,白白將曝光機會拱手讓給你的競爭對手。
(註:Google 的 AI Overviews 目前仍是基於標準的 Googlebot 抓取結果來生成摘要答案,因此只要你允許 Googlebot 正常抓取即可,無須為 Google AI Overviews 做額外的特殊放行設定。)
💥 殘酷現實:封鎖了 AI 爬蟲,它們就真的進不來嗎?
雖然前面我們教了如何利用 robots.txt 封鎖 AI 爬蟲,但實務操作上,我們必須帶您認識一個殘酷的現況:
robots.txt 在 AI 爬蟲眼中,只是一套沒有強制力的「君子協定」。
根據國外權威機構 BuzzStream 於2026年4月提出的調查報告『Do News Publishers That Block AI Crawlers Get Cited Less Often by AI?』一文指出,即使許多大型新聞媒體在 robots.txt 中嚴格封鎖了 AI 模型訓練與即時搜尋的爬蟲,但最終在 AI 引擎的回答中,仍有高達 95% 的引用來源來自這些明確拒絕抓取的網站。
為什麼會這樣?因為 AI 抓取技術與繞過限制的方式不斷在進化。有些 AI 會透過不受規範的第三方爬蟲抓取資料,有些則會偽裝成一般使用者的瀏覽器行為(Headless Browser)。這告訴我們一個重要的技術現實:
透過 robots.txt 設定防堵,技術上「可做、應該做」,但絕對不要「過於強求」或以為它能達到 100% 的絕對防禦。

【延伸探討】新興的 llms.txt 是什麼?我需要設定嗎?
在近期探討 AI SEO 與 GEO 的技術社群中,你可能偶爾會聽到一個新名詞:「llms.txt」。這究竟是什麼?它會取代 robots.txt 嗎?
什麼是 llms.txt?
llms.txt 是一個由開發者社群近期發起的「非官方提案」。它的核心構想是:既然 AI 模型(LLM)特別喜歡閱讀 Markdown 格式的乾淨文本,網站管理員是不是能提供一個專屬的 /llms.txt 檔案,裡面放上網站核心內容的 Markdown 摘要,或是專門寫給 AI 看的導覽規則,讓 AI 能更有效率地吸收網站知識?
SEO 顧問的觀點與實務建議:
雖然這個立意十分良好,但身為專業的 SEO 顧問,我們必須為你釐清一個關鍵事實:llms.txt 目前「並非」任何官方認可的通用協定。
截至目前為止,包含 Google、Bing 等傳統搜尋引擎巨頭,以及 OpenAI、Anthropic 等頂尖 AI 實驗室,皆未曾發表過任何官方聲明表示他們會抓取、遵循或優先參考 llms.txt 的內容。
- 沒有實質排名承諾:目前沒有任何數據實證,擁有 llms.txt 能讓你的網站在 AI 摘要(AI Overviews)或 ChatGPT 搜尋中獲得更好的曝光、排名或成為首選引用來源。
- robots.txt 仍是唯一標準:要控制爬蟲的進出與檢索規則,目前全網路唯一公認且具備實質強制力的標準協議(REP),依然只有 robots.txt。
針對 llms.txt,我們建議抱持「了解即可、持續觀望」的態度👀。除非你擁有極度充裕的工程資源,且非常熱衷於進行前沿的技術實驗,否則現階段完全不需要為了這個尚未成氣候的非官方檔案感到焦慮。與其花時間琢磨如何產出 llms.txt,不如把精力投資在撰寫更高品質的原創內容,並確保網站具備清晰的 HTML 語意架構(Semantic HTML),這才是迎戰 AEO 時代最根本的王道。
robots.txt 在不同情境實務操作範例
為了讓大家更好理解,以下列出幾種常見的實務情境與對應的代碼寫法。你可以直接複製並修改成適合自己網域的版本:
範例一:全站開放,僅提交 Sitemap(最常見的內容網站/企業形象網站)
這是最友善、最基礎的設定,允許所有爬蟲暢行無阻地抓取,並指引 Sitemap 的明確位置。
| # 允許所有爬蟲抓取全站內容 User-agent: * Disallow: # 告訴爬蟲網站地圖在哪裡 Sitemap: https://www.example.com/sitemap.xml |
(注意:Disallow 後面留空,就代表什麼都不阻擋,即全站 Allow。)
範例二:測試站上線前,全站禁止抓取(正式環境請絕對避免使用!)
如果你正在建置新網站、進行大幅度改版,或是擁有一個專屬的內部測試網域(如 staging.example.com),請務必使用以下設定,避免未完成的內容、亂碼或假圖被 Google 索引到正式搜尋結果中。
| # 禁止所有爬蟲抓取網站上的任何東西 User-agent: * Disallow: / |
(注意:只有一個斜線 / 代表整個網站的「根目錄」及其以下所有內容。正式網站上線的那一刻,務必記得移除這個斜線!這是新手最常犯的致命錯誤。)
範例三:WordPress 網站標準設定(阻擋後台與系統目錄)
針對目前市佔率最高的 WordPress 架站系統,通常建議阻擋後台登入區域與包含隱私資訊的系統目錄,但必須放行前端視覺渲染所需的系統檔案(如:AJAX 處理程式)。
| User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Allow: /wp-admin/admin-ajax.php Sitemap: https://www.example.com/sitemap.xml |
範例四:大型電商網站(阻擋站內搜尋與複雜的篩選參數)
電商網站常會因為條件篩選(如價格區間、顏色分類、熱銷排序)產生俗稱的「分面導覽(Faceted Navigation)」問題。這會產生上萬個重複或內容極度相似的網址,嚴重消耗檢索預算,這時可以利用萬用字元阻擋特定參數。
| User-agent: * # 阻擋站內搜尋結果頁面 Disallow: /search/ Disallow: /?s= # 阻擋包含特定參數的網址(如排序與篩選) Disallow: /*?sort= Disallow: /*&filter= # 阻擋購物車與結帳這類無 SEO 價值的隱私流程 Disallow: /cart/ Disallow: /checkout/ Sitemap: https://www.example.com/sitemap.xml |
範例五:【AEO/GEO 策略】擁抱 AI 搜尋流量,並自主控管模型訓練爬蟲
這是一套符合目前 2026 最新 AI 趨勢的彈性配置。我們的策略邏輯是:積極允許傳統搜尋引擎(Googlebot)與 AI 即時搜尋引擎(ChatGPT-User)進入以獲取曝光;同時,針對專門用於訓練底層語言模型的爬蟲,網站管理員可依據自身的版權與資料政策,決定是否進行阻擋。以下範例提供給希望保留內容授權、暫不開放 AI 訓練抓取的用戶參考:
| # 1. 拒絕 OpenAI 訓練模型抓取 (保護版權) User-agent: GPTBot Disallow: / # 2. 拒絕 Google 模型訓練抓取 (完全不影響一般 Google 搜尋排名) User-agent: Google-Extended Disallow: / # 3. 拒絕 Anthropic (Claude) 訓練抓取 User-agent: Anthropic-ai Disallow: / # 4. 其他所有爬蟲 (包含 Googlebot, ChatGPT-User, PerplexityBot) 依循以下常規規則 User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Sitemap: https://www.example.com/sitemap.xml |
robots.txt 與 Meta Robots (noindex) 的差異釐清
這是一個極度重要、且實務上最多人(甚至部分SEO從業人員)會搞混的 SEO 觀念!
常見迷思:「只要我把網頁寫進 robots.txt 被封鎖 (Disallow) 了,這個網頁就絕對不會出現在 Google 搜尋結果中,對吧?」
答案是:很可惜,並沒有這麼理想!它還是極有可能會曝光在搜尋結果上。
要釐清這個問題,必須理解這兩者的管轄範圍完全不同:
robots.txt (Disallow) 控制的是「檢索(Crawling)」
它就像是門口的警衛,告訴 Googlebot:「你不准進去這個房間看裡面的東西。」但是,如果網路上有其他網站的連結(Backlinks)指向了你這個私密房間,Google 雖然乖乖聽話沒進去看,但它透過別人的連結知道了這個網址的存在。這時,Google 還是可能會把它「索引(Index)」到搜尋結果中。在搜尋結果上,通常標題會顯示為該網址的路徑,或是出現「找不到這頁的說明(No information is available for this page)」的警告字樣,這反而顯得非常欲蓋彌彰。

Meta Robots (noindex) 控制的是「索引(Indexing)」
這是一段必須寫在該網頁本身 HTML <head> 區塊內的程式碼 <meta name=”robots” content=”noindex”>。它等於是網頁本身貼著一張字條,告訴 Googlebot:「歡迎你進來看,但你看完之後,絕對不要把我放到大眾搜尋結果清單上。」(註:如果你的機密檔案是 PDF 檔或圖片,因為沒有 HTML 標籤,你必須透過伺服器端的 X-Robots-Tag HTTP 標頭來設定 noindex。)
Google建議的解法:
假設你有一個極度機密的定價策略頁面 https://www.example.com/secret-pricing,你絕對不想在 Google 上被任何人搜到,你應該怎麼做?
- 先在目標頁面的 HTML 原始碼中加上 noindex 標籤。
- 確保你的 robots.txt 中「沒有」Disallow 該網頁!
這點非常反直覺!為什麼不 Disallow 呢?因為如果你在 robots.txt 中設定了 Disallow: /secret-pricing,Googlebot 就會被擋在門外。既然進不去,它就「永遠讀不到」裡面的 noindex 標籤。這反而會導致該頁面因為外部連結的關係,像幽靈一樣出現在搜尋結果中,所以要徹底消滅一個網址的索引,必須「放行讓它檢索,並讓它讀到 noindex」才行。
如何建立、提交與測試你的 robots.txt?
步驟1. 建立檔案📄
打開電腦裡的純文字編輯器(如 Windows 記事本、Notepad++ 或 VS Code),輸入上述建議的規則。存檔時,請確認兩個細節:
- 檔名全部小寫,必須精準命名為 robots.txt。
- 編碼格式強烈建議選擇 UTF-8(無 BOM)。如果使用了其他編碼,可能會產生看不見的亂碼字元,導致搜尋引擎解析失敗。
步驟2. 上傳至主機根目錄☁️
將檔案透過 FTP 軟體(如 FileZilla)或主機商的控制台(如 cPanel)上傳到網站的「根目錄(Root directory)」。上傳後,最簡單的驗證方式就是打開無痕瀏覽器,輸入 https://你的網域/robots.txt,確認可以正常看到文字內容且排版沒有跑位。
步驟3. 測試與驗證工具🔍
上傳完成後,你可以利用 Google Search Console (GSC) 進行確認。
- 雖然新版 GSC 介面中將舊版的即時測試工具移除了,但你仍可以在「設定 > 檢索統計資料」或是特定的「robots.txt 報告」中,查看 Google 上次讀取該檔案的時間狀態。
- 若要進行即時的單一網址語法測試,可以利用 GSC 上方的「網址審查(URL Inspection)」工具。輸入網址後,查看「網頁檢索」區塊,如果「是否允許檢索?」顯示為「否:遭到 robots.txt 封鎖」,就代表你的阻擋規則已成功生效。
- 進階技巧:對於資深的網站管理員,最準確的驗證方式是直接查看伺服器的日誌檔(Server Log Files),觀察特定 User-agent(如 GPTBot)嘗試存取特定路徑時,是否被伺服器回應了正確的阻擋狀態。
robots.txt 常見的 5 大錯誤與 Q&A 彙整
在輔導眾多企業網站的過程中,我們發現以下幾個 robots.txt 錯誤最常發生,甚至曾導致全站流量歸零的慘劇:
Q1:網址路徑的大小寫有差異嗎?
A1:有!非常嚴格!網址路徑是絕對區分大小寫的(Case-sensitive)。Disallow: /Admin/ 和 Disallow: /admin/ 代表兩個完全不同的目錄,建議在撰寫時再三確認網址的精確大小寫。
Q2:如果 Allow 和 Disallow 的規則衝突了怎麼辦?到底聽誰的?
A2:Googlebot 會採取「最長匹配路徑(Longest Match)」的優先原則。這意味著指令寫得越具體、字元越長的規則會勝出。
例如,你同時寫了:
Disallow: /folder/
Allow: /folder/page.html
因為 Allow 的路徑更長,所以 Googlebot 會允許抓取 page.html。
(小提醒:雖然 Google 遵循此規則,但並非所有小型的爬蟲機器人(如早期的 Bingbot 等)都具有相同的解析邏輯。實務上建議盡量避免撰寫過於複雜、互相衝突的規則,越簡單明確越安全。)
Q3:為什麼我的網站昨天就更新了 robots.txt 封鎖規則,今天 Google 還是去抓那些頁面?
A3:因為「快取機制」與「時間差」。Googlebot 為了節省資源,不會每分每秒都來讀取你的 robots.txt,它通常會將這個檔案快取約 24 小時。你可以到 Google Search Console 中手動要求重新抓取該檔案,或是耐心等待一到兩天讓設定自然生效。
Q4:為什麼我設定了 Disallow: wp-admin 卻完全沒有阻擋效果?
A4:這是新手最常犯的語法錯誤!在撰寫路徑時,目錄前面一定要加上斜線 /。
正確的寫法是 Disallow: /wp-admin/。如果少了前面的斜線,爬蟲會無法辨識這是一個相對於根目錄的路徑,導致該條指令直接失效。
Q5:跨網域(Cross-Domain)的網址可以寫進 robots.txt 來阻擋嗎?
A5:不行!除了 Sitemap 項目可以填寫絕對路徑(完整的 https://… 網址)之外,Allow 和 Disallow 的規則只能應用於相對路徑(以 / 開頭)。robots.txt 的管轄範圍僅限於它所存在的那個特定子網域(Subdomain)。它就像是自家門口的警衛,無法越權去管隔壁鄰居(其他網域)的事情。
robots.txt 看似只是一個不起眼的純文字檔,幾行簡單的程式碼,但它卻是實實在在掌握網站命脈的「流量總開關」。
從基礎的節省檢索預算(Crawl Budget)、防止測試環境外洩釀成災難,到如今 AI 世代面臨的版權資料保護與 GEO 搜尋流量佈局,定期檢視與嚴謹更新你的 robots.txt,已經是每一位網站管理員與 SEO 人員不可忽視的戰略性例行公事。
最後,必須再次叮嚀一個最核心的安全觀念:「robots.txt 防君子不防小人」。

它遵循的只是一種網路君子協議,正規的搜尋引擎與負責任的大廠 AI(如 Google, OpenAI, Anthropic)都會乖乖遵守;但如果是惡意的駭客爬蟲、內容農場的暴力抓取腳本,即使你寫了 Disallow: /,它們依然會視若無睹地強行闖入。
因此,如果是牽涉到會員個資、金流後台、機密定價等真正需要保護的頁面,請務必透過伺服器端的權限控管(如 .htaccess 阻擋、密碼保護登入、IP 防火牆限制)來處理,絕對不要天真地只依賴 robots.txt 來做資訊安全防護。
希望這篇文章能幫助你在傳統 SEO 與新興 AEO 雙軌並行的複雜時代,完美駕馭你的網站流量與爬蟲防禦策略:)🎉
