欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

# Git 大文件清理

程序员文章站 2022-07-13 09:13:11
...

查找大文件

git rev-list --objects --all | grep "$(git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -5 | awk '{print$1}')"

结果

zsh: no matches found: .git/objects/pack/*.idx
4fa9c4356393c0a3047a64e2662d5b624a471b3e
47e9174f93476eb8fb744c66b2060bd5bdb7d6a7
ec51f3c438af85e9835c53fc251cfd714e7a0bfc
5cee5c2988f361e20d7c1e3bc9a91c3eb42864e5
3257e94bc49f743d49efb53db26e619df26be0c5
f66e46b3c12602662f33ddf8b0c99d91e8a279ef
a0b12cc5d48ae90065210b441f3d6c1a33378b37 
c74105573fb0312738746de0718449565b36ac58 jczr.rar
bece93b911880583437964207f2c4a2252881d0e read.md
5fa55fe49a260ed6e9665d31685b2ef61b1bf376 readme2.md
e60b15a71c46199a36955fc0da55d45d69e89388 
204f7e33b29397657ddcd35e8971db46e0753486 dawenjian.zip
20f192ea673667322a769f7765159bed736ceeab 
9eef28535c062025b7354695c2a6cfffebb210a0 read.md
8b062a810b9473aeb6f697f67898a21120f3d4aa readme2.md
359618d9f4efdeefb94453cb172b96b36e2743ae 
0b61c06e8627abb75f01da05f583592dd486f9ba 
ef0ef318e3c167d67016b0b9bc5149d6b2f19dce read.md
0eb689f0b4e75f72ecf14a9b54d34cd1e2ab79fa 
8494906e9a9b585fc75640034d8b5f59f67297d2 read.md
  • 第一行是文件id
  • 第二行是文件路径

删除大文件

Git仓库彻底删除一个文件只有一种办法:重写(Rewrite)涉及该文件的所有提交。 幸运的是借助git filter-branch便可以重写历史提交,当然这也是Git中最危险的操作。 可以说比rm -rf *危险一万倍。

git filter-branch -f --prune-empty --index-filter 'git rm -rf --cached --ignore-unmatch dawenjian.zip' --tag-name-filter cat -- --all

--index-filter参数用来指定一条Bash命令,然后Git会检出(checkout)所有的提交, 执行该命令,然后重新提交。我们在提交前移除了recent-badge.psd文件, 这个文件便从Git的所有记录中完全消失了
--all参数告诉Git我们需要重写所有分支(或引用)。
unmatch 后面跟文件的路径

此时我们使用查找大文件的命令查找文件,发现那些文件还是在。怎么回事呢?因为没清理缓存。下面我们看下怎么清理缓存。

清理git 缓存

Git仓库历史有个缓存期,如果不主动回收、清理仓库历史,一般的这些记录还会保存一段时间,以备你突然后悔了,没办法找回删掉的文件。那么怎么样才能主动回收资源能?就是通过以下命令:

rm -rf .git/refs/original/
git reflog expire --expire=now --all
git gc --prune=now
git gc --aggressive --prune=now

比较清理前后的提交信息变化

清理前的提交日志

这里我再添加一个大文件和一个说明文件,添加后提交。
执行git log -p命令查看提交内容,如下所示

# Git 大文件清理
image

清理后的提交日志

很显然日志未发生任何变化


# Git 大文件清理
image

主动刷新后的提交日志变化

很显然,在提交日志里,根本看不到我们提交过什么大文件,只有和大文件同时提交的记录文件还在。那说明我们把大文件的提交记录清除了。


# Git 大文件清理
image

温馨提示

大文件已经提交到远程仓库

如果这些文件已经提交到远程仓库了,那么现在就有一个问题,远程仓库的提交记录和本地的提交记录不一致。只能强制提交或者强制update

  • 强制提交git push origin master -force,本地代码强制覆盖远程代码仓库的代码
  • 强制覆盖远程版本到本地,最后的代码就是远程仓库的版本
git fetch --all
git reset --hard origin/master
大文件不曾提交到远程仓库

如果大文件不曾提交到远程仓库,则可以处理了大文件后,直接提交到仓库。

参考文档

Git+Gerrit如何永久删除历史文件(大文件/私密文件)
寻找并删除Git记录中的大文件