欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

[转]html元数据标签

程序员文章站 2022-05-12 14:25:16
...
标签名    例子    描述
AUTHOR   <META NAME="AUTHOR" CONTENT="John"> 作者名
CACHE-CONTROL <META HTTP-EQUIV="CACHE-CONTROL" CONTENT="NO-CACHE"> HTTP1.1 允许的值:PUBLIC PRIVATE NO-CACHE NO-STORE Public - 缓存到公共共享目录 Private - 缓存到私有目录 no-Cache - 不缓存 no-Store - 缓存但不归档。NO-CACHE表明缓存不会被使用,请求会被发送到原始服务器,这个指令的语义和PRAGMA:NO-CACHE是一样的,在不清楚服务器是否符合HTTP1.1规范时,客户端应该同时包含这两个指令。最好是在HTTP指定缓存命令,这样不仅能影响浏览器,而且会影响代理和中间件缓存的使用
CONTENT-LANGUAGE <META HTTP-EQUIV="CONTENT-LANGUAGE" CONTENT="en-US,fr"> 声明文档的首选语言,可以被搜索引擎拿来做分类
CONTENT-TYPE <META HTTP-EQUIV="CONTENT-TYPE" CONTENT="text/html; charset=UTF-8"> 设置文档的类型和字符集,建议用这个标签来设置字符集
COPYRIGHT <META NAME="COPYRIGHT" CONTENT="&copy; 2012 John"> 设置版权信息
DESCRIPTION <META NAME="DESCRIPTION" CONTENT="...summary of web page..."> 该文本可以用来打印文档的摘要,不能包含任何的格式化字符,被一些搜索引拿来描述你的文档。当这个文档还有很少的文本,是一个frameset,或者在top域有扩展的脚本时,这个标签尤其重要。
EXPIRES <META HTTP-EQUIV="EXPIRES" CONTENT="Thu, 24 May 2012 11:12:01 GMT"> 设置文档的过期时间,非法的日期如 0 表示的是现在,每次访问时都会执行更改检查。Web爬虫可能会从一个搜索引擎删除过期文档,或者重新访问。HTTP 1.1 (RFC 2068)要求所有的HTTP时间戳必须以GMT为准和遵照RFC 1123格式。 RFC 1123 format = wkday "," SP date SP time SP "GMT" wkday = (Mon, Tue, Wed, Thu, Fri, Sat, Sun) date = 2DIGIT SP month SP 4DIGIT ; day month year (e.g., 02 Jun 1982) time = 2DIGIT ":" 2DIGIT ":" 2DIGIT ; 00:00:00 - 23:59:59 month = (Jan, Feb, Mar, Apr, May, Jun, Jul, Aug, Sep, Oct, Nov, Dec)
KEYWORDS <META NAME="KEYWORDS" CONTENT="sex, drugs, rock & roll"> 除了标题和文档内容外,关键字也被搜索引擎拿来索引文档,主要是同义词和替代词。比方说经常拼错的词:heirarchy, hierarchy
PRAGMA NO-CACHE <META HTTP-EQUIV="PRAGMA" CONTENT="NO-CACHE"> 和CACHE-CONTROL: NO-CACHE类似,这个指令是为了兼容HTTP1.0规范
REFRESH <META HTTP-EQUIV="REFRESH" CONTENT="15;URL=http://www.I18nGuy.com/index.html"> 文档自动刷新的间隔,当然我们可以指定其它的url来重定向到其它页面
ROBOTS <META NAME="ROBOTS" CONTENT="ALL"> <META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"> <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"> <META NAME="ROBOTS" CONTENT="NONE"> CONTENT="ALL NONE NOINDEX INDEX NOFOLLOW FOLLOW NOARCHIVE" default = empty = "ALL" "NONE" = "NOINDEX, NOFOLLOW" Content中的内容是以逗号分隔的列表:INDEX: 搜索引擎需要包含这个页面 FOLLOW: 搜索引擎应该跟踪页面的超链接到其它页面 NOINDEX: 搜索引擎可以跟踪页面的超链接到其它页面,但是不包含这个页面 NOFOLLOW: 搜索引擎可以包含这个页面,但是不可以跟踪页面的超链接到其它页面 NONE:搜索引擎忽略这个页面 NOARCHIVE: Google引擎使用这个命令来阻止页面归档
GOOGLEBOT <META NAME="GOOGLEBOT" CONTENT="NOARCHIVE"> Google引擎使用这个指令来阻止页面归档,但是允许其它引擎这么做