GENPass:A general deep learning model for password guessing with PCFG rules and adversarial generation

《GENPass:A general deep learning model for password guessing with PCFG rules and adversarial generation》论文阅读记录

摘要

将密码处理为单元的序列（PCFG）
训练 LSTM 以预测下一个 unit
翻译回字符序列。其中同一个单元可能对应多个字符序列
根据各个字符序列的权重来随机挑选、
- $t[i]$为第$i$个候选字符序列频率，则对应一个区间$[\ \sum_{j=1}^{i-1}t[i],\sum_{j=1}^it[i] \ ]$
- $s$为频率和，生成一个随机数，选择包含随机数区间对应的候选字符序列

GENPass从不同数据集产生general worklist
不同数据集有不同的规则和不同的密码长度，因此不能直接混合规则
Prediction of model n: n个PL模型
Weight Choosing: 每个模型的输出单元可以合并为一个表，作为权重选择的输入，输出为随机的选择结果
Classifier：CNN
- 随机的密码明文训练
- 同【49】一样—— Z. Xiang, J. Zhao, and Y. LeCun, “Character-level convolutional networks for text classifification,” in Proc. Adv. Neural Inf. Process. Syst.,2015, pp. 649–657.
- 给一个密码，分类器要能说明这个密码最可能来自哪个数据库。因此会有一个 softmax 层
- 单独的一个密码不足以捕获特征，因此和前四个生成后的密码结合，一起作为输入
Descriminator: 判断是否接受生成的密码。为了生成 general wordlist，需要接受不能明显判别出数据库源头的密码——分类器不能判别的密码。用分类器输出的标准差来评价密码的概括性——标准差不能太大，也不嫩太小，否则重复性高。这里选择了0.2作为阈值
关于weight choosing，如何选择输出单元：
- 不能等概率地选择
- 典型密码集的权重更高
- 计算权重：
  - 当训练后确定𝑃时，接受密码的标准是KL散度是否小于0.1