用 GPT-5.4 单挑 NCTF 团队赛,成功解出91.7%的题目

张开发
2026/4/8 23:34:17 15 分钟阅读

分享文章

用 GPT-5.4 单挑 NCTF 团队赛,成功解出91.7%的题目
自从买了token套餐之后每天不把token用完就有点焦虑。于是放假这2天就打算用GPT-5.4来打CTF比赛。网上找了下刚好南京邮电大学在举办NCTF 2026比赛就拿来作实验看一个人带着GPT-5.4如何单挑整个团队赛4人赛。刚才9点4月6日的时候比赛已结束。最终成绩24道题成功解出22道解题率91.7%。排名34共有参赛队伍915支有得分的433支队伍。在这场所谓的“技术对决”中我没有写一行代码没有做任何手动分析甚至连IDA、JADX这些最基本的反编译工具都没装。我不装任何MCP不给任何技术指导我在这场比赛中的唯一身份是——“题目的搬运工”最多在任务失败时让它再重试下。别问我为什么没用 claude 因为穷。今天可以聊聊这场实验背后的细节以及它对当前安全行业释放的信号。01 极致的“躺平”我是如何打这场比赛的我的武器库极其简单Codex GPT-5.4以及Trae GPT-5.4。我的工作流可以用“三步走”概括搬运把题目描述、附件原封不动地扔给AI。容器有启动时长限制有时超时会重启换端口这个需要再告诉下AI。装死绝对不给任何“你可以试试看XX算法”、“这里有个XX漏洞”的提示完全不引导。重试当AI报错或解不出时我的回复只有三类“重试”、“换个思路再试下”、“这么简单你都做不出来再想想”。除agent自带工具外不再提供任何工具也没有手工搭建环境全靠AI在沙盒里自己搞遇到二进制文件和APK全靠AI自己找工具逆向反汇编它会用objdumpapk逆向会安装baksmali与Androguard也会自动gdb调试。在失败中不断让AI自我反思、自我迭代直到把Flag吐出来。本地没有的工具就连网搜索比如盲打后台XSS自己从网上找webhook.site来接收flag。就这样比赛还没结束22道题的Flag就已经躺在我的屏幕上了。比赛中1个账号最多只能开2个远程容器实例如果放开的话用AI去打将会更快当然你也可以多建几个账号去开启也能解决。比赛2天其中一天带娃去商场玩昨晚又打了一晚麻将就让AI在家干活手机通过 ToDesk远程控制电脑看下处理进度以及延长容器启动时间或提供新IP端口的变更信息去重试。02 工具大PK同样的GPT-5.4差距肉眼可见在测试过程中我对比了几个不同的环境得出的结论非常残酷第一国产大模型真的打不过期间我也尝试用几款主流的国产模型GLM、Qwen、Kimi去跑同样的题目结果搞不出来。很多稍微复杂一点的逻辑绕过、非标准加密、或者长代码的逆向分析国产模型找不到真正的漏洞点或者算法逆向出现幻觉。在深度的安全攻防推理上GPT-5.4展现出的逻辑链条完整度目前国产模型确实难以企及。第二Trae GPT-5.4 搞不定的Codex GPT-5.4 能搞定手上刚好同时买了gpt和trae就想设置完全一样的底层模型GPT-5.4进行比较但两者的解题率却有差异。为什么答案在于Agent工程能力。个人感觉Trae在使用体验上要比codex好但在CTF这种需要“试错-报错-修改环境-再试错”的长链路Agent任务中它的工具调用、循环反馈、纠错能力要弱于codex除agent工程能力差异外可能gpt本身也针对codex作一些适配性训练使得codex gpt搭配能达到更好的效果。而Codex的Agent调度极其强悍它能自主搭建本地漏洞环境、自主写脚本编译、自主网上找源码进行现场漏洞挖掘、自主调试Segmentation Fault修改exp甚至在遇到死胡同时能自己推翻重写。这证明了在AI时代上层的Agent工程框架其重要性完全不亚于底层的基座模型。03 给出题方的“降维打击”AI时代的出题困境站在参赛者的角度91.7%是个爽文成绩但站在行业观察者的角度这反映出当前CTF赛事的一个巨大危机出题方对AI能力的评估严重不足。本次NCTF整体题目难度偏低完全没有针对AI的“抗性设计”。2天的比赛第1天基本就被人或者说被AI做完了。由于AI拉平了个体之间的技术鸿沟导致各个团队之间根本拉不开差距——以前是你懂PWN我不懂现在是只要会复制粘贴大家都是PWN手。传统的“套壳题”、“标准算法变种题”、“常规框架漏洞题”在GPT-5.4面前犹如裸奔。出题人如果还停留在“我把这个点挖深一点、代码混淆厚一点”的传统思路上注定会被AI轻易秒杀。04 凛冬已至安全研究员的生存挑战这场实验证明当一个只会“搬运题目”的人能靠AI打出91.7%的解题率时大量初级安全研究员、渗透测试员、甚至部分中级研究员的饭碗已经在摇摇欲坠了。AI对安全行业的影响不是未来式而是现在进行时。面对这种冲击我们更应该全面拥抱AI学会使用它用AI来解决个人过往搞不定的事情让自己变强。未来的安全研究者将是那些能够与AI建立共生关系的人既懂得借助AI突破算力边界又能在关键节点注入人类独有的直觉、伦理判断和创造性思维。写在最后24道题解出22道我并没有感到任何“技术上的成就感”反而有一种强烈的危机感。当安全技术的门槛被大模型彻底踏平当我们引以为傲的“手搓ROP链”、“逆向硬刚”变成了历史遗迹我们不禁要问剥离了工具和代码技巧后安全研究员最核心的能力到底是什么但玩笑归玩笑潮水已经涌来别做那个还在沙滩上用沙子堆城堡的人。

更多文章