Updated on

网页内容存储

Tags

如今互联网上文字内容正以指数增长的速度增长着,但是也有某些内容在公开之后消失了。过去我认为,互联网上的内容是不会消失的,是全人类永远的数据库,在互联网上你可以找到任何你想要的内容。但近些年,我发现越来越多自己看过的内容在首次查看之后,第二次顺着链接想再次查看的时候,就“404 NOT FOUND”了。这些内容对于我来说,是有价值的,失去它们会让我感到有些遗憾。

那么,有没有办法,让既有的互联网上的文字内容能够“永久地存储”下来呢?1

网页内容存储方法

直接保存网页

这是最粗暴但也是最为稳定的方法,因为存储介质的选择完全取决于你。

Save Page WE是一个浏览器插件,其用途就是将某个网页保存为HTML文件。 这是我至今使用过的最粗暴但也是最稳定的方法,并且支持自定义的设置,你可以选择是否储存网页引用的CSS、JS文件,以保证你保存下来的网页,在你之后查看时能获得一个与你最初在浏览器中浏览时的样式一致的网页。

如果你较常使用Safari的话,你可以直接Command+S并存储为Safari支持的.webarchive格式的网页归档。

当然,你也可以选择截图的方式,但于我而言,这有些麻烦了,而且如果你不能使用OCR技术对图片中的文字进行转换,后期想要查看某个内容就会十分困难。

如果你使用Zotero作为自己的文献管理系统的话,你可以选择安装一个Zotero Connector插件,这样在本地打开Zotero的情况下,点击Zotero Connector的图标,可以轻松地把网页保存到自己的Zotero库中。

你也可以选择截图的方式,但于我而言,这有些麻烦了,而且如果你不能使用OCR技术对图片中的文字进行转换,后期想要搜索某个内容就会十分困难。

稍后读服务

这样的软件我用过一些,包括Pocket、Instapaper、Matter、InfoFlow。Pocket和Instapaper都是非常成熟的软件了,它们对于微信公众号文章的支持程度其实是相当不错的,所以看到有些公众号上有价值的内容,我都会用Pocket存储下来。不过,微博上的文章就难以解决了。之所以会这样,主要还是因为微博文章和微信公众号文章的网页采取的完全不同的渲染方式(要是有机会,再说说吧,不过这也不是我的专业领域)。稍后读工具不少都是免费的,但我还是建议你选择一个收费的服务,一是为了让这样的公司能够活下去,否则万一哪一天这家公司倒闭了,你想要保存的链接所指引的网页中的文字内容也就拜拜了;二是免费的东西往往不是最好的,使用起来多少会有些憋屈。

打印

第三种方法,打印下来。如果你富裕的能拥有一家图书馆的话,可以选择这么做。

Wayback Machine

在Wikipedia上,对于Internet Archive的介绍是这样的,“The Internet Archive is an American digital library with the stated mission of "universal access to all knowledge". It provides free public access to collections of digitized materials, including websites, software applications/games, music, movies/videos, moving images, and millions of books. ” 保存网页便是Internet Archive的用途之一。在Internet Archive的主页中,输入你要保存的网页的url,网站就会生成一个当前时间的该url所指向的网页的快照(snapshot)。 不过,这个保存网页的方式,具有的一定的局限性——不能保存需要验证才能查看到的网页。

笔记软件 + 剪藏工具

笔记软件我最近一直使用的都是Notion。当然你也可以使用Evernote或者是其他软件。要记住的事,软件只是一种工具而已。 尽管Notion有其官方的网页剪藏工具,但效果并不令我满意。我现在使用的一款叫做简阅(SimpRead)的浏览器插件。当我遇到我想剪藏到我的Notion中专门用来储存网页内容的数据库时,我会进入简阅的阅读模式(在阅读模式下会去掉网页的非核心内容,包括广告、导航栏等等,留下网页的核心内容,往往也是我们想要储存的内容),然后选择工具栏中的保存到Notion,这样就可以将网页的核心内容和网页的链接储存到我的Notion数据库。

关于存放之后如何整理、保证自己以后在所需时找到,就是另一个问题了,这个问题有机会再写吧。

存储之后续

将浏览器中的网页完整地存储为某个格式的文件之后,我们需要一个合适的存储介质来存放我们保存的内容。

如果你不相信云存储服务的话,你只能选择存放在自己的机械硬盘中了(不要存放在固态硬盘/SSD中,因为SSD存在读写的次数限制。虽然SSD的技术不断演变,但其仍然是一种基于电子元件的储存方式,存在着写入次数、读取干扰等不能够解决的问题,而这些问题是与我们试图“永久”存储互联网内容的目的相违背的)。

如果你不相信云存储服务,但你有些小富裕的话,可以选择购置一台NAS或者自建一台文件存储服务器,然后选择组建RAID 10的稳定性较高的机械硬盘阵列,在机械硬盘阵列中存放保存的内容。

如果你相信云存储服务的话,那选择就有很多种了。你可以选择自建一个文件存储服务,如NextCloud(如果你懂的基本的Linux和Docker的使用的话);你也可以使用诸如百度云、坚果云、OneDrive、Box、DropBox这样的服务,或收费或免费。

在前述的前述的几项服务中,我不推荐百度云、腾讯云这类在你需要下载某个文件时需要你手动指定文件下载存放路径的服务,而是本地文件和在线文件双向同步的服务,这样管理你未来将存放的海量内容,更加得心应手,而不需要像使用百度云这样的服务时,当你要删除某些内容时,需要本地删除一遍,然后到百度云客户端中再删除一次。

Footnotes

  1. 也许永久存储是有些不切实际的,但是我们能够避免这些内容不因"人为因素"使得我们无法再次浏览。