LLMS.txt 是 2024 年由 Google、OpenAI、Anthropic 等 AI 公司支持的一种新型爬虫协议文件,其核心目的是:
让网站所有者可以明确控制自己的内容是否允许被大型语言模型(LLM,Large Language Models)抓取、学习和训练使用。
它的地位,正如早年互联网时代的 robots.txt
对搜索引擎那样重要。
LLMS
✅ 什么是 LLMS.txt?
LLMS.txt 是一个放置在网站根目录下的纯文本文件,语法类似于 robots.txt
,但它针对的是 AI 模型爬虫,而非搜索引擎。
这个文件告诉 OpenAI(ChatGPT)、Anthropic(Claude)、Google Gemini、Perplexity 等公司:
- 你的网站是否允许它们访问
- 是否允许用于训练模型
- 是否允许用于实时内容引用(比如在回答中嵌入你的内容链接)
📄 示例内容:
User-Agent: OpenAI
Disallow: /
User-Agent: Google-Extended
Allow: /
这表示:
- 拒绝 OpenAI 的模型抓取你的网站内容
- 允许 Google 的 Gemini 模型使用你的网站进行训练
✅ 为什么 LLMS.txt 现在特别重要?
1. 保护内容版权,避免无授权训练
AI 模型的强大,靠的是“喂内容”。很多模型可能已经在未经许可的情况下爬取了你的网站内容,进行训练。
而 LLMS.txt 是目前唯一公开且“被主流模型尊重”的方式,告诉它们“别碰我的内容”。
2. 决定是否让 AI 把你作为内容引用源
如果你允许,像 Perplexity、ChatGPT、Google Gemini 这样的系统,在用户提问时会直接显示你的内容并标注出处。这能带来巨大的曝光和流量。
如果你禁止,它们就不会抓取你的数据用于回答问题,也不会推荐你的页面。
3. SEO逻辑正在变化
Google 搜索结果的流量正在被 Gemini 等 AI 导航系统“切割”。未来流量来源不再仅是“关键词排名”,而是“AI模型引用谁来回答”。
你的网站是否允许 AI 抓取、引用,将直接影响你是否在“AI结果页”里露出。
✅ 谁应该马上配置 LLMS.txt?
- 做内容站点(资讯、博客、知识库)的企业或个人
- 做外贸网站建设,希望在 AI 结果中获得曝光的企业
- 做原创产品描述、案例文章的网站
- 担心AI抓取造成内容泄露的品牌站点
✅ 如何配置 LLMS.txt?(简洁操作指南)
- 打开你网站根目录(就是网站首页URL对应的文件夹)
- 创建一个名为
llms.txt
的文件(注意是 llms.txt,不是 robots.txt) - 写入以下内容:
🛑 拒绝所有AI模型抓取:
User-Agent: *
Disallow: /
✅ 只允许 Google Gemini:
User-Agent: Google-Extended
Allow: /
User-Agent: *
Disallow: /
- 上传并在浏览器中测试:
访问https://yourdomain.com/llms.txt
看是否生效
✅ 结语:别让 AI 把你的内容白白拿走
现在是一个“机器学习内容时代”的转折点。
正如当年很多站长忽视 robots.txt
导致 SEO机会丢失,
今天如果你不写 LLMS.txt,就等于对模型“默认开放”。
但是否开放、开放多少,是你该掌控的,而不是他们说了算。
如果你的网站内容有原创价值,或者你希望在 AI 新生态里占据一席之地,现在就该配置 LLMS.txt。
如果你不确定该怎么配,或想要定制更复杂的规则,也可以直接找 厦门创意互动,我们在 AI+Web生态规则落地方面有完整实战经验,帮你真正把内容安全、曝光和收益抓在自己手里。