VulHawk 复现

[[VulHawk Cross-architecture Vulnerability Detection with Entropy-based Binary Code Search]]

Get Started

python 2_FileEnvironmentIdentification.py

python 3_function_embedding_generation.py

python 4_binary_code_search.py

整体输入是二进制文件，然后分两部分进行：

IRFM：对输入的二进制程序进行处理得到 IR，IR 作为 IRFM 的输入，输出是 IR 的词嵌入
- 首先进行 IR 生成和指令简化
- 然后使用 Masked Language Model (MLM)、根操作数预测 (ROP) 和相邻块预测 (ABP) 进行预训练
- 然后生成基本块嵌入
- 用基本块嵌入和 cfg 生成函数嵌入（GCN 网络是用来捕获 cfg 的）
基于熵的适配器：
- 首先计算二进制文件的熵值
- 使用残差神经网络作为分类器判断二进制文件属于哪种文件环境（编译器、优化级别等等）

上面两个一个得到二进制文件的函数嵌入，另一个得到二进制文件的文件环境，并且将二进制文件映射到一个中间环境中，减弱不同文件环境带来的影响。用函数嵌入进行渐进式搜索

虽然作者说 Linux 和 MacOS 都可以，但是实际上作者给出的自定义包文件有. pyd 文件，只有 Windows 下才可以载入。看到 GitHub 上面有人给他提了这个 issue，但是作者没有回复。这个代码结构是清晰的，数据也有，感觉是可以复现成功的。