Files
cicids2017-visualization/Dados.txt
2025-07-28 22:40:31 -03:00

100 lines
4.9 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

🔍 4.1 Visualização dos Dados Brutos
Imagens:
raw_data_feature_distribution.png
raw_data_label_distribution.png
📊 raw_data_feature_distribution.png
Analisando a distribuição da feature Destination_Port:
A densidade concentra-se em portas conhecidas (ex: 80, 443, 22, 21), o que é esperado em tráfego legítimo.
Observa-se picos isolados em portas não convencionais, indicativo de atividades anômalas como port scans ou ataques que testam portas alternativas.
A cauda longa mostra que há uma variedade grande de portas utilizadas, com uso esporádico característica típica de datasets com ataques variados (como DDoS ou Botnet).
📊 raw_data_label_distribution.png
Forte desbalanceamento: o tráfego BENIGNO domina amplamente o conjunto de dados.
Isso valida a preocupação expressa no artigo sobre a necessidade de estratégias de pré-processamento (como normalização, e eventualmente balanceamento de classes).
Os ataques são diversos, mas individualmente minoritários. Isso ressalta a importância de interpretar o modelo com cuidado, pois ele pode tender a aprender o padrão benigno como dominante.
🧼 4.2 Visualização Após Tratamento dos Dados
Imagens:
processed_data_feature_distribution.png
processed_data_label_distribution.png
📊 processed_data_feature_distribution.png
Após normalização (Min-Max), os valores de Destination_Port foram re-escalados para o intervalo [0, 1].
O histograma mantém a forma geral da distribuição, mas permite comparar valores com outras features normalizadas no mesmo intervalo.
Os picos mantêm-se nos mesmos pontos (ex: 0.03, 0.08...), representando as portas mais comuns.
A cauda longa permanece presente, mas com visualização mais limpa (sem outliers extremos que distorcem a escala).
Interpretação visual:
→ A normalização não alterou a estrutura semântica da feature, o que é positivo: ela preserva os padrões enquanto permite que o modelo compare múltiplas features em igualdade de escala.
📊 processed_data_label_distribution.png
A distribuição de classes foi mantida após o tratamento ou seja, não houve balanceamento artificial das classes.
Isso é coerente com o objetivo do estudo, que focou na visualização e interpretabilidade, e não na maximização da performance via técnicas como SMOTE.
O fato de o modelo ter atingido alta performance mesmo com classes desbalanceadas reforça a robustez do Random Forest e da engenharia de features realizada.
🧠 4.3 Visualizações de Interpretabilidade com SHAP
Imagens:
shap_bar_plot.png
shap_summary_plot.png
shap_dependence_plot.png
📊 shap_bar_plot.png
Exibe a importância média de cada feature no modelo Random Forest.
A feature mais importante é Destination_Port, seguida por variáveis relacionadas a fluxo (Flow_Duration, Flow_IAT_Max, Fwd_Packet_Length_Std etc).
Essas features indicam características temporais e estruturais do tráfego, que são cruciais para distinguir entre comportamento normal e malicioso.
Insights:
Destination_Port domina por ser fortemente correlacionada a certos tipos de ataque (e.g., ataques a SSH, FTP, RDP).
A combinação de múltiplas features temporais mostra que o modelo aprendeu padrões comportamentais de tráfego.
📊 shap_summary_plot.png
Vai além da média: mostra a distribuição dos valores SHAP por feature.
Cada ponto representa uma amostra e sua contribuição para a classificação.
A coloração representa o valor da feature (vermelho = alto, azul = baixo).
Exemplo de interpretação:
Para Destination_Port, valores altos (vermelho) tendem a contribuir para classificação como ataque, enquanto valores baixos (azul) muitas vezes indicam tráfego benigno.
Isso confirma que portas incomuns estão associadas a comportamentos maliciosos no dataset.
📊 shap_dependence_plot.png
Exibe a relação entre o valor da feature mais importante (Destination_Port) e seu impacto SHAP.
Mostra que para certas faixas de portas (principalmente as mais altas ou não padrão), há um aumento expressivo no valor SHAP → maior probabilidade de o modelo classificar como ataque.
Pode-se observar clusters ou transições bruscas, indicando possíveis thresholds que o modelo implicitamente aprendeu.
📌 Conclusão da Análise Visual
Etapa Gráfico Insight Principal
Dados Brutos raw_data_feature_distribution Presença de portas suspeitas; picos em portas padrão e anomalias em portas altas.
raw_data_label_distribution Desbalanceamento de classes.
Dados Tratados processed_data_feature_distribution Distribuição preservada; normalização eficaz.
processed_data_label_distribution Desbalanceamento mantido para estudo realista.
Interpretação com SHAP shap_bar_plot Destination_Port domina; features temporais também são muito relevantes.
shap_summary_plot Correlação clara entre valores altos da porta e ataques.
shap_dependence_plot Portas incomuns aumentam a probabilidade predita de ataque.