zhihu-recover
对知乎已经删除/可能删除的问题备份
知乎删除了问题 "莆田系医院都有哪些内幕?" 从快照恢复并备份了其他几个莆田系相关问题
列表
(404)莆田系医院都有哪些内幕?
(404)福建莆田私人医院的历史是怎么样的?
(404)知乎用户:哪个瞬间让你突然觉得读书真有用? Related video backup
(404)如何评价韩国电影《出租车司机》?
(404)如何评价北航陈小武老师?
(404)如何看待上海环卫工罢工? - 知乎
从快照恢复知乎页面方法
虽然百度快照对知乎的支持还是很渣的,但几乎可以确定的一点是:删帖不会删图片 至少不会马上删
Ctrl+U查看源代码,发现图片其实是有链接的,只是使用了图片延迟加载的技术,百度快照页面已经过滤掉了js也就导致图片加载不出来;同时知乎的图片是反盗链的,需要设置Referer为zhihu.com才可正常加载
步骤:
1.打开快照页面,Ctrl+U查看源代码,Ctrl+A Ctrl+C全选复制,粘贴到编辑器
2.替换:
src="https://github.com//zhstatic.zhihu.com/assets/zhihu/ztext/whitedot.jpg"替换为空
data-original替换为src
还可能需要视情况修改meta中charset的设置,例如charset=gb2312替换为charset=utf-8
3.打开网页,全页面截图保存
4.(进阶)得到离线版本
使用高级的编辑器(如我用的EmEditor),提取图片网址,正则为:https://pic[0-9].zhimg.com/[^" ]+"
, 全部选择复制到一个空文档,将"
替换为\n
,保存文档到tmp.txt
可见tmp.txt中还是有重复的记录,先进行去重后再下载吧:
cat tmp.txt|sort|uniq>piclist.txt
wget -i piclist.txt
下载图片完成后编辑html:找到base标签删除;正则替换https://pic[0-9].zhimg.com/
,替换为空
再打开浏览器F12看看有没有不存在的文件,抓出来再下载一遍 over
在发现知乎404后尽快按步骤进行恢复,防止快照过期
欢迎贡献
欢迎PR提交更多已经被删/可能被删的知乎问题的备份文件