本章节整理了在漏洞分析、安全研究、威胁情报、机器学习安全模型训练等领域常用的公开数据集,方便研究人员快速获取可用数据。
1. 漏洞数据集(Vulnerability Datasets)
| 数据集名称 |
简介 |
常用场景 |
链接 |
| NVD(National Vulnerability Database) |
美国国家漏洞数据库,包含 CVE 漏洞、CVSS 评分、CPE 影响范围等 |
漏洞分析、风险评估、威胁情报 |
https://nvd.nist.gov/ |
| CVE List |
全球漏洞编号标准,记录漏洞基本信息 |
漏洞管理系统、资产扫描匹配 |
https://www.cve.org/ |
| Exploit-DB |
收集各类漏洞利用代码及 PoC(Proof-of-Concept) |
攻击面研究、渗透测试 |
https://www.exploit-db.com/ |
| VulDB |
漏洞情报平台,包含漏洞描述、漏洞利用、修复方案 |
漏洞生命周期跟踪 |
https://vuldb.com/ |
| China National Vulnerability Database(CNVD) |
中国国家信息安全漏洞库 |
国内漏洞信息追踪 |
https://www.cnvd.org.cn/ |
| Snyk Vulnerability DB |
针对开源组件漏洞的数据库 |
软件供应链安全 |
https://security.snyk.io/ |
2. 网络流量数据集(Network Traffic Datasets)
| 数据集名称 |
简介 |
常用场景 |
链接 |
| NSL-KDD |
KDD Cup 99 改进版,包含正常与攻击流量(DOS、Probe、U2R、R2L) |
入侵检测模型训练 |
https://www.unb.ca/cic/datasets/nsl.html |
| CICIDS2017 |
包含多种现代网络攻击流量,如 DDoS、Web 攻击、暴力破解等 |
IDS/IPS 研究、机器学习分类 |
https://www.unb.ca/cic/datasets/ids-2017.html |
| UNSW-NB15 |
现代网络环境下模拟的正常与攻击流量数据 |
流量分析与分类 |
https://research.unsw.edu.au/projects/unsw-nb15-dataset |
| MAWI Working Group Traffic Archive |
真实骨干网流量捕获数据 |
流量特征提取 |
https://mawi.wide.ad.jp/mawi/ |
| Kyoto 2006+ |
日本京都大学收集的网络流量数据 |
长期趋势研究 |
http://www.takakura.com/Kyoto_data/ |
3. 恶意代码与样本数据集(Malware Datasets)
| 数据集名称 |
简介 |
常用场景 |
链接 |
| VirusShare |
收集了大量恶意软件样本(需申请访问) |
恶意代码分析、特征提取 |
https://virusshare.com/ |
| MalwareBazaar |
由 abuse.ch 维护的恶意软件样本库 |
样本分析、YARA 规则测试 |
https://bazaar.abuse.ch/ |
| EMBER Dataset |
Windows PE 文件特征数据集,用于恶意/良性分类 |
机器学习恶意代码检测 |
https://github.com/elastic/ember |
| VX Heaven(已停止更新) |
历史恶意软件样本集合 |
恶意代码溯源、家族分类 |
http://vxheaven.org/ |
| Zoo Dataset |
各类恶意软件混合样本 |
沙箱测试 |
https://github.com/ytisf/theZoo |
4. IoT 安全相关数据集(IoT Security Datasets)
| 数据集名称 |
简介 |
常用场景 |
链接 |
| IoT-23 Dataset |
包含 IoT 恶意流量(Mirai、Gafgyt 等)和良性流量 |
IoT 流量分析、入侵检测 |
https://www.stratosphereips.org/datasets-iot23 |
| TON_IoT Datasets |
联网传感器、网络流量、系统日志等综合数据 |
IoT/IIoT 异常检测 |
https://research.unsw.edu.au/projects/toniot-datasets |
| BoT-IoT Dataset |
模拟 IoT 环境下的 DDoS、扫描、信息泄露等攻击 |
IoT 安全模型训练 |
https://research.unsw.edu.au/projects/bot-iot-dataset |
| Aposemat IoT Dataset |
来自 IoT 蜜罐的真实攻击流量 |
IoT 威胁情报研究 |
https://aposemat.iot/ |
5. 安全事件与威胁情报数据集(Threat Intelligence & Incident Datasets)
| 数据集名称 |
简介 |
常用场景 |
链接 |
| AlienVault OTX |
开放威胁情报平台,包含 IoC(IP、域名、哈希) |
威胁情报聚合与关联分析 |
https://otx.alienvault.com/ |
| Abuse.ch Feeds |
提供恶意域名、IP、C2 服务器情报 |
网络拦截、威胁狩猎 |
https://abuse.ch/ |
| CIRCL Passive DNS |
被动 DNS 数据集 |
域名威胁分析、溯源 |
https://www.circl.lu/services/passive-dns/ |
| PhishTank |
钓鱼网站 URL 数据库 |
反钓鱼检测 |
https://phishtank.org/ |
| URLhaus |
恶意 URL 收集平台 |
恶意站点检测 |
https://urlhaus.abuse.ch/ |
6. 数据使用注意事项
- 部分数据集需要申请或签署安全协议(例如 VirusShare、MalwareBazaar)。
- 数据集可能包含恶意代码、漏洞利用代码,下载和分析应在隔离环境中进行。
- 遵守法律法规,不得将数据用于非授权的渗透测试或攻击行为。