LLMs.txt 是一個放置在網站根目錄的純文字檔,用來告訴 AI 模型你的網站內容是否允許被使用、如何使用的規範文件。隨著 AI 搜尋(AI Overview)、多家大型語言模型(LLM)與第三方資料訓練來源愈來愈依賴網站內容,網站的內容授權與使用規範變得比以往更重要。為了讓網站能主動定義AI 模型是否能使用你的內容。
Table of Contents
ToggleLLMs.txt 是什麼?
LLMs.txt 是一個放置在網站根目錄的純文字檔,用來告訴 AI 模型你的網站內容是否允許被使用、如何使用的規範文件。
它的作用類似 robots.txt,但重點不再是爬蟲抓取,而是:
- 允許 AI 模型讀取你的內容嗎?
- 可以用於訓練?摘要?引用?還是僅限瀏覽?
- 哪些資料夾不允許使用?
- 哪些 AI 模型可以用?哪些禁止?
舉例來說,你可以:
- 允許 OpenAI 索引文章,但禁止用於模型訓練
- 禁止所有 LLM 使用會員內容
- 允許 AI Overview 引用摘要,但禁止全文抓取
簡單來說它是一種 網站的 AI 使用授權文件。
LLMs.txt 和 robots.txt、sitemap.xml 有什麼不同?
| 文件 | 目的 | 規範對象 | 內容層級 |
| robots.txt | 控制搜尋引擎爬蟲存取 | Googlebot、Bingbot | 抓取與索引 |
| sitemap.xml | 提供搜尋引擎網站結構 | Google、Bing | URL 清單 |
| LLMs.txt | 控制 AI 模型如何使用內容 | OpenAI、Google AI、Anthropic 等 | 使用授權、引用、訓練 |
差異如下:
1. robots.txt 限制的是抓取,LLMs.txt 限制的是使用
即使你不讓模型抓,模型仍可能從第三方資料取得網站內容;
但若你透過 LLMs.txt 禁止使用,它需要遵守你的內容授權。
2. sitemap.xml 是提供地圖,不牽涉權限
AI 模型是否能引用你的內容,與你提供不提供 sitemap 完全不同。
3. 兩者互補,不互相取代
robots.txt 仍然是 SEO 必備;
LLMs.txt 是 AI 時代的新必備規範。
哪些網站應該導入 LLMs.txt?
LLMs.txt 是一個用來規範網站內容是否可以被 AI 模型使用的文件,它可以幫助網站擁有者控制其內容的使用範圍。某些類型的網站尤其需要設定 LLMs.txt 來確保他們的資料不被無授權使用或過度引用。以下是一些典型的使用場景以及網站類型,這些網站應該導入 LLMs.txt
內容創作型網站(部落格、媒體網站、知識庫)
這些網站產生大量原創內容,並且往往希望能夠保持對內容的控制權。LLMs.txt 讓網站擁有者可以規範哪些內容可以被 AI 模型引用,哪些不行,從而避免:內容被過度引用、過度使用原創資料,減少剽竊風險。
場景範例:
- 允許公開文章被 AI 模型引用,但禁止私人會員文章被抓取。
- 禁止模型將內容用於訓練用途,只允許用於摘要或搜尋引擎索引。
法律、醫療與金融網站
這些網站涉及高敏感度的專業內容,LLMs.txt 對這類網站至關重要。網站擁有者可以控制哪些資料能被 AI 模型使用,避免資料泄露、誤解或錯誤引用。
場景範例:
- 醫療網站:僅允許公開的健康文章被 AI 模型引用,而禁止診斷信息或病歷資料被抓取。
- 法律網站:保護專業法律文書和判決書,避免被無意識地引用或作為 AI 訓練資料。
會員制網站與付費內容
一些網站提供專屬內容給會員或訂閱者,這些內容不應該被 AI 模型隨意引用或抓取。LLMs.txt 可以幫助這些網站保護內容,防止未經授權的引用或侵犯。
場景範例:
- 網上課程網站:允許AI抓取摘要、標題和簡介,但禁止視頻內容或課程詳情被用於模型訓練。
- 訂閱網站:阻止 AI 模型抓取付費牆後的內容。
電商網站
對於電商網站來說,產品信息、描述和價格等內容通常是經營的關鍵。LLMs.txt 可以幫助這些網站控制是否允許 AI 模型抓取商品信息,並避免被用於其他平台或應用中,從而保護品牌與商業機密。
場景範例:
- 允許 AI 引用商品標題和摘要,但禁止引用完整的描述或價格信息。
- 禁止模型抓取「庫存狀況」或「銷售數據」。
高流量或品牌保護型網站
一些企業或品牌希望在 AI 模型中保持其獨特性和品牌形象,避免被模型過度引用,影響品牌價值。這些網站會利用 LLMs.txt 控制品牌內容的使用範圍。
場景範例:
- 品牌網站:控制產品圖片和品牌故事等內容的使用權限,避免被 AI 模型隨意抓取。
- 新聞網站:僅允許標題和摘要出現,防止整篇文章被模型自動引用。
如何拒絕 AI 模型讀取你的網站內容?
如果你希望阻止 AI 模型抓取網站的某些內容,可以使用 LLMs.txt 設定 Disallow 指令來拒絕 AI 模型的訪問。
LLMs.txt 怎麼設定?
LLMs.txt 是一個簡單的文本文件,放置於網站根目錄,專門用來規範網站內容對 AI 模型的授權與使用情況。以下是如何進行基本設定:
- Allow:允許 AI 模型抓取並使用指定內容。例如,允許某些頁面或資料夾的內容被 AI 模型引用。
- Disallow:禁止 AI 模型抓取特定內容。例如,禁止私密資料或會員區域的內容被引用。
- Purpose:指定使用目的,能定義該內容是否可以用於訓練、摘要、展示等。例如,某些網站可能只希望其文章被摘要引用,但不希望用於模型訓練。
常見指令解釋:
- User-agent:指定 AI 模型的類型,例如,OpenAI、Google AI,或其他第三方模型。
- Disallow 和 Allow:控制哪些頁面、圖片、或資料夾能被 AI 模型抓取與使用。
- Purpose:可指定是否允許模型將網站內容用於訓練、摘要、引用或顯示。
LLMs.txt 範例
範例 1:允許公眾頁面使用,禁止私密頁面
如果你希望允許公開頁面被 AI 模型使用,但禁止私密頁面使用,可以這樣設置:
allow: /public/
disallow: /private/
這樣的設定能確保你的公共內容被 AI 模型引用,但私密資料不會被抓取。
範例 2:禁止 AI 模型訓練,但允許摘要
假設你希望你的內容能被 AI 模型摘要使用,但禁止模型將其用於訓練,你可以設定:
purpose: no-training
allow: /articles/
這樣,AI 模型可以引用文章進行摘要,但不會將其用於訓練,從而保護內容不被過度利用。
範例 3:禁止所有圖片被 AI 使用
如果你希望禁止 AI 模型使用網站中的所有圖片,但允許其他文本內容被引用,可以這樣設置:
disallow: /*.jpg
disallow: /*.png
allow: /
這樣,所有圖片將被禁止使用,但網站的其他內容(如文本和文章)依然可以被 AI 模型引用。
範例 4:限制某些 AI 模型的訪問權限
你可以根據不同的 AI 模型設置不同的訪問權限。例如,允許 OpenAI 使用網站內容,但禁止其他模型:
user-agent: OpenAI
allow: /articles/
disallow: /private/
user-agent: Google-Extended
disallow: /
這樣,只有指定的模型(例如 OpenAI)可以訪問文章內容,而其他模型則被完全禁止。
LLMs.txt 對 SEO 與 AI 模型抓取的影響
SEO 影響
LLMs.txt 並不會直接影響 Google 的搜尋引擎排名,因為它主要是針對 AI 模型的內容使用權限 進行設定。但它間接影響 SEO:
- AI Overview:許多 AI 模型,如 Google 的 AI Overview,會根據 LLMs.txt 設定來決定是否引用網站內容。如果你希望提高在 AI 模型中的曝光度,正確設置 LLMs.txt 能確保你的內容被 AI 模型引用,進而提升搜尋結果中的可見度。
- 避免過度引用:通過禁止 AI 模型使用某些內容,你可以防止網站的資訊被無限制地引用,保護你的內容版權。
AI 模型抓取的影響
LLMs.txt 最直接的影響是對 AI 模型抓取行為的控制。其主要作用如下:
- 內容授權控制:你可以控制哪些內容可以被 AI 模型抓取,哪些內容無法使用,這對於希望保護其資料的網站尤其重要。
- 避免不必要的模型訓練:許多網站希望其內容能被 AI 模型摘要,但不希望這些資料用於模型訓練。通過 LLMs.txt,可以禁止內容被用於訓練,從而更好地控制資料的使用。
- 精確控制訪問範圍:網站可以通過細分設置,精確控制哪些頁面、資料夾或檔案可以被哪些 AI 模型訪問,從而實現更加精細化的內容管理。
保護內容的知識產權
LLMs.txt 提供了一種方式來保護網站內容的知識產權,避免其被不當使用。例如,某些網站可能不希望 AI 模型使用其文章進行訓練或展示,這樣的設定能有效保護網站的內容不被過度使用或無授權使用。
總結來說,LLMs.txt 讓網站能更好地管理其內容的使用方式,對 SEO 影響不大,但對 AI 模型的抓取與引用影響深遠,幫助網站在 AI 驅動的數位時代保持內容控制權。
LLMs.txt 常見問題整理(FAQ)
LLMs.txt 是強制性的嗎?不設定會怎樣?
LLMs.txt 並非強制性的,但若不設置,AI 模型將無限制使用你的內容,並且無法控制哪些內容可以被引用或訓練。
LLMs.txt 放錯位置會不會失效?
是的,LLMs.txt 必須放在網站的根目錄,若放錯位置(如子資料夾),AI 模型將忽略它。
LLMs.txt 會取代 robots.txt 嗎?
不會,兩者有不同功能。robots.txt 控制搜尋引擎抓取,LLMs.txt 則控制 AI 模型的內容使用。
AI 模型真的會遵守 LLMs.txt 嗎?
大部分主流 AI 模型會遵守 LLMs.txt,但一些小型或封閉模型可能不會。
LLMs.txt 可以指定「部分內容可用,部分不可用」嗎?
可以,LLMs.txt 允許細分控制哪些內容能被 AI 模型使用,例如指定資料夾或頁面。
LLMs.txt 設定錯誤會造成怎麼樣的後果?
設定錯誤可能會導致內容過度曝光或無法使用,並可能引發法律爭議和 SEO 影響。
需要協助設定 LLMs.txt 嗎?聯繫玩構
如果你希望確保網站內容得到妥善的管理與保護,並且想要在 AI 模型和搜尋引擎中保持正確的曝光和控制,聯繫玩構科技,無論你是需要基本的 LLMs.txt 設置幫助,還是希望進一步優化你的 AI 模型曝光,玩構科技 都能提供專業的協助與建議。
立即聯繫我們,讓我們幫助你更好地掌控網站內容使用與保護!
- 聯絡玩構:07-6075007
- LINE:LINE官方詢問


