用 GPT-5.4 单挑 NCTF 团队赛，成功解出91.7%的题目

张开发

• 2026/4/8 23:34:17 • 15 分钟阅读

分享文章

自从买了token套餐之后每天不把token用完就有点焦虑。于是放假这2天就打算用GPT-5.4来打CTF比赛。网上找了下刚好南京邮电大学在举办NCTF 2026比赛就拿来作实验看一个人带着GPT-5.4如何单挑整个团队赛4人赛。刚才9点4月6日的时候比赛已结束。最终成绩24道题成功解出22道解题率91.7%。排名34共有参赛队伍915支有得分的433支队伍。在这场所谓的“技术对决”中我没有写一行代码没有做任何手动分析甚至连IDA、JADX这些最基本的反编译工具都没装。我不装任何MCP不给任何技术指导我在这场比赛中的唯一身份是——“题目的搬运工”最多在任务失败时让它再重试下。别问我为什么没用 claude 因为穷。今天可以聊聊这场实验背后的细节以及它对当前安全行业释放的信号。01 极致的“躺平”我是如何打这场比赛的我的武器库极其简单Codex GPT-5.4以及Trae GPT-5.4。我的工作流可以用“三步走”概括搬运把题目描述、附件原封不动地扔给AI。容器有启动时长限制有时超时会重启换端口这个需要再告诉下AI。装死绝对不给任何“你可以试试看XX算法”、“这里有个XX漏洞”的提示完全不引导。重试当AI报错或解不出时我的回复只有三类“重试”、“换个思路再试下”、“这么简单你都做不出来再想想”。除agent自带工具外不再提供任何工具也没有手工搭建环境全靠AI在沙盒里自己搞遇到二进制文件和APK全靠AI自己找工具逆向反汇编它会用objdumpapk逆向会安装baksmali与Androguard也会自动gdb调试。在失败中不断让AI自我反思、自我迭代直到把Flag吐出来。本地没有的工具就连网搜索比如盲打后台XSS自己从网上找webhook.site来接收flag。就这样比赛还没结束22道题的Flag就已经躺在我的屏幕上了。比赛中1个账号最多只能开2个远程容器实例如果放开的话用AI去打将会更快当然你也可以多建几个账号去开启也能解决。比赛2天其中一天带娃去商场玩昨晚又打了一晚麻将就让AI在家干活手机通过 ToDesk远程控制电脑看下处理进度以及延长容器启动时间或提供新IP端口的变更信息去重试。02 工具大PK同样的GPT-5.4差距肉眼可见在测试过程中我对比了几个不同的环境得出的结论非常残酷第一国产大模型真的打不过期间我也尝试用几款主流的国产模型GLM、Qwen、Kimi去跑同样的题目结果搞不出来。很多稍微复杂一点的逻辑绕过、非标准加密、或者长代码的逆向分析国产模型找不到真正的漏洞点或者算法逆向出现幻觉。在深度的安全攻防推理上GPT-5.4展现出的逻辑链条完整度目前国产模型确实难以企及。第二Trae GPT-5.4 搞不定的Codex GPT-5.4 能搞定手上刚好同时买了gpt和trae就想设置完全一样的底层模型GPT-5.4进行比较但两者的解题率却有差异。为什么答案在于Agent工程能力。个人感觉Trae在使用体验上要比codex好但在CTF这种需要“试错-报错-修改环境-再试错”的长链路Agent任务中它的工具调用、循环反馈、纠错能力要弱于codex除agent工程能力差异外可能gpt本身也针对codex作一些适配性训练使得codex gpt搭配能达到更好的效果。而Codex的Agent调度极其强悍它能自主搭建本地漏洞环境、自主写脚本编译、自主网上找源码进行现场漏洞挖掘、自主调试Segmentation Fault修改exp甚至在遇到死胡同时能自己推翻重写。这证明了在AI时代上层的Agent工程框架其重要性完全不亚于底层的基座模型。03 给出题方的“降维打击”AI时代的出题困境站在参赛者的角度91.7%是个爽文成绩但站在行业观察者的角度这反映出当前CTF赛事的一个巨大危机出题方对AI能力的评估严重不足。本次NCTF整体题目难度偏低完全没有针对AI的“抗性设计”。2天的比赛第1天基本就被人或者说被AI做完了。由于AI拉平了个体之间的技术鸿沟导致各个团队之间根本拉不开差距——以前是你懂PWN我不懂现在是只要会复制粘贴大家都是PWN手。传统的“套壳题”、“标准算法变种题”、“常规框架漏洞题”在GPT-5.4面前犹如裸奔。出题人如果还停留在“我把这个点挖深一点、代码混淆厚一点”的传统思路上注定会被AI轻易秒杀。04 凛冬已至安全研究员的生存挑战这场实验证明当一个只会“搬运题目”的人能靠AI打出91.7%的解题率时大量初级安全研究员、渗透测试员、甚至部分中级研究员的饭碗已经在摇摇欲坠了。AI对安全行业的影响不是未来式而是现在进行时。面对这种冲击我们更应该全面拥抱AI学会使用它用AI来解决个人过往搞不定的事情让自己变强。未来的安全研究者将是那些能够与AI建立共生关系的人既懂得借助AI突破算力边界又能在关键节点注入人类独有的直觉、伦理判断和创造性思维。写在最后24道题解出22道我并没有感到任何“技术上的成就感”反而有一种强烈的危机感。当安全技术的门槛被大模型彻底踏平当我们引以为傲的“手搓ROP链”、“逆向硬刚”变成了历史遗迹我们不禁要问剥离了工具和代码技巧后安全研究员最核心的能力到底是什么但玩笑归玩笑潮水已经涌来别做那个还在沙滩上用沙子堆城堡的人。

更多文章

前端开发 2026/4/8 23:32:04

Super Qwen Voice World部署教程：阿里云ECS GPU实例最佳实践

Super Qwen Voice World部署教程：阿里云ECS GPU实例最佳实践 1. 学习目标与价值今天，我们来聊聊一个特别有意思的项目——Super Qwen Voice World。你可以把它理解成一个“声音游乐场”，一个能让你用文字描述，就能生成各种语气…

pagehelper整合引入依赖com.github.pagehelperpagehelper-spring-boot-starter2.1.0compile编写代码 GetMapping("/list/{pageNo}") public PageInfo findAll(PathVariable int pageNo) {// 设置当前页码和每页显示的条数PageHelper.startPage(pageNo, 10);// 查询数…

张开发

前端开发 2026/4/8 22:45:19

企业如何设定AI Agent的使用边界

企业如何设定AI Agent的使用边界：全面指南与最佳实践引言痛点引入在当今数字化转型的浪潮中，AI Agent（人工智能代理）正迅速从科幻概念转变为企业运营的核心工具。这些自主或半自主的系统能够执行复杂任务，从客户服务到数据分析，再到自动化决策，为企业带来了前所未…

张开发

用 GPT-5.4 单挑 NCTF 团队赛，成功解出91.7%的题目

最新文章

PDE (Processing D Editor) 三维场景编辑器 · 软件白皮书 · 基于 v..略

MySQL主从同步延迟：排查方法+优化技巧（实战落地版）

自动化测试框架实战（超详细的）

Spring AI 实战：基于RAG技术的医疗AI问答系统

Claude Code 一周烧掉一半配额？我从逆向工程中看到了 Agent 测试的致命盲区

主构造函数迁移避坑清单，手把手将Legacy C#类升级至C# 13主构造模式（含Roslyn编译器错误码速查表）

推荐文章

突破手游操控瓶颈：QtScrcpy虚拟映射技术全解析

Flutter Riverpod：状态管理的新纪元

WintunAdapter 设计解析：一个 VNP 数据面的无锁优雅实现

Arduino二进制模拟时钟库：LED阵列驱动的轻量级时间可视化方案

RP2040硬件加速步进电机控制库picoasyncstepper

minimal-json：嵌入式C语言轻量级JSON解析器

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

Super Qwen Voice World部署教程：阿里云ECS GPU实例最佳实践

避开STC8A8K64S4A12的ADC那些坑：配置寄存器、结果对齐与电压跟随器详解

别再只靠瓦片等级了！用Cesium精准控制地图缩放的自定义比例尺方案

静止无功发生器SVG的simulink仿真包含设计报告(22页，设计过程，结果分析，参数计算

UNet人脸融合作品集：这些换脸效果太惊艳了！

ESP32/Arduino旋转编码器状态机库设计与应用

用RT-Thread玩转星火1号：红外遥控+温湿度传感器的智能家居原型开发

大白话讲清楚什么是LLM、Agent、Token、Skill

2026年LLM大比拼：GPT-5.2领衔，开源模型崛起，谁将称霸AI战场？

nRF52+RFX2401C硬件实战：手把手教你配置PA+LNA（基于S132 SoftDevice）

记录复现多模态大模型论文OPERA的一周工作（）投

企业如何设定AI Agent的使用边界