网页存档(Archive.today)

网址

archive.is（又名为archive.today）是一个私人资助的网页存档网站，数据中心位于欧洲法国的北部-加来海峡。这个网站典藏档案馆使用Apache Hadoop与Apache Accumulo软件。它可以一次取回一个类似于WebCite的小于50MB的页面，但收录Google地图与Twitter。

archive.is会根据著作权所有者的合乎数字千年著作权法案（DMCA）的撤除请求移除已归档的页面。

它每次请求都会捕捉网页的文字内容，加载不含活动元素或脚本的Web 2.0网站或由JavaScript产生的图片与框架内容。截图是1024×768像素，没有弹出窗口。

截至2015年，archive.is还支持了Memento Project的API，并且开发了Firefox浏览器与Chrome浏览器的插件。

在2015年7月21日，网站管理者们屏蔽了芬兰的IP地址，他们在其Twitter上声称，这么做是为了避免与芬兰政府的纠纷升级。他们拒绝提供额外的信息。此网站也被中国当局与哈萨克斯坦当局屏蔽。此站同样被OpenDNS屏蔽。

archive.today曾多次更换域名。从建站初期至2014年4月14日是使用“Archive.is”（首字母为大写）。在2014年4月15日时，该网站的名称已更名为“archive.today”（首字母为小写）。在2015年春季又改回了“archive.is”（首字母为小写）。

archive.today会被一些作者或黑客活动分子使用。
有些在线用户（例如玩家门成员）使用它查看他们反对的网站的内容以避免向其贡献网站流量。
朱利安·阿桑奇《当Google遇上维基解密》（When Google Met WikiLeaks）的一书中使用了archive.is保留在线引文。
叙利亚电子军为了证明他们入侵网站而使用它。
有别于比如互联网档案馆时光机（Internet Archive Wayback Machine）的主动性网络蜘蛛，archive.is每次只捕捉网站的一个页面，所以不遵守“Robots排除标准”。从法律上讲，archive.today与互联网档案馆时光机有很大不同。互联网档案馆的时光机抓取网页时遵循通常的Robots指令，这种指令可以阻止其抓取特定的网页。然而，网站无法阻止archive.today的用户对其制作站点镜像。

Tags