# Git 大文件清理
程序员文章站
2022-07-13 09:13:11
...
查找大文件
git rev-list --objects --all | grep "$(git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -5 | awk '{print$1}')"
结果
zsh: no matches found: .git/objects/pack/*.idx
4fa9c4356393c0a3047a64e2662d5b624a471b3e
47e9174f93476eb8fb744c66b2060bd5bdb7d6a7
ec51f3c438af85e9835c53fc251cfd714e7a0bfc
5cee5c2988f361e20d7c1e3bc9a91c3eb42864e5
3257e94bc49f743d49efb53db26e619df26be0c5
f66e46b3c12602662f33ddf8b0c99d91e8a279ef
a0b12cc5d48ae90065210b441f3d6c1a33378b37
c74105573fb0312738746de0718449565b36ac58 jczr.rar
bece93b911880583437964207f2c4a2252881d0e read.md
5fa55fe49a260ed6e9665d31685b2ef61b1bf376 readme2.md
e60b15a71c46199a36955fc0da55d45d69e89388
204f7e33b29397657ddcd35e8971db46e0753486 dawenjian.zip
20f192ea673667322a769f7765159bed736ceeab
9eef28535c062025b7354695c2a6cfffebb210a0 read.md
8b062a810b9473aeb6f697f67898a21120f3d4aa readme2.md
359618d9f4efdeefb94453cb172b96b36e2743ae
0b61c06e8627abb75f01da05f583592dd486f9ba
ef0ef318e3c167d67016b0b9bc5149d6b2f19dce read.md
0eb689f0b4e75f72ecf14a9b54d34cd1e2ab79fa
8494906e9a9b585fc75640034d8b5f59f67297d2 read.md
- 第一行是文件id
- 第二行是文件路径
删除大文件
在Git
仓库彻底删除一个文件只有一种办法:重写(Rewrite)
涉及该文件的所有提交。 幸运的是借助git filter-branch
便可以重写历史提交,当然这也是Git
中最危险的操作。 可以说比rm -rf *
危险一万倍。
git filter-branch -f --prune-empty --index-filter 'git rm -rf --cached --ignore-unmatch dawenjian.zip' --tag-name-filter cat -- --all
--index-filter
参数用来指定一条Bash命令,然后Git会检出(checkout)所有的提交, 执行该命令,然后重新提交。我们在提交前移除了recent-badge.psd文件, 这个文件便从Git的所有记录中完全消失了--all
参数告诉Git我们需要重写所有分支(或引用)。unmatch
后面跟文件的路径
此时我们使用查找大文件的命令查找文件,发现那些文件还是在。怎么回事呢?因为没清理缓存。下面我们看下怎么清理缓存。
清理git 缓存
Git
仓库历史有个缓存期,如果不主动回收、清理仓库历史,一般的这些记录还会保存一段时间,以备你突然后悔了,没办法找回删掉的文件。那么怎么样才能主动回收资源能?就是通过以下命令:
rm -rf .git/refs/original/
git reflog expire --expire=now --all
git gc --prune=now
git gc --aggressive --prune=now
比较清理前后的提交信息变化
清理前的提交日志
这里我再添加一个大文件和一个说明文件,添加后提交。
执行git log -p
命令查看提交内容,如下所示
清理后的提交日志
很显然日志未发生任何变化
主动刷新后的提交日志变化
很显然,在提交日志里,根本看不到我们提交过什么大文件,只有和大文件同时提交的记录文件还在。那说明我们把大文件的提交记录清除了。
温馨提示
大文件已经提交到远程仓库
如果这些文件已经提交到远程仓库了,那么现在就有一个问题,远程仓库的提交记录和本地的提交记录不一致。只能强制提交或者强制update
- 强制提交
git push origin master -force
,本地代码强制覆盖远程代码仓库的代码 - 强制覆盖远程版本到本地,最后的代码就是远程仓库的版本
git fetch --all
git reset --hard origin/master
大文件不曾提交到远程仓库
如果大文件不曾提交到远程仓库,则可以处理了大文件后,直接提交到仓库。
参考文档
上一篇: python画3D对比柱状图