Excluir Dados.txt

2025-07-29 01:41:46 +00:00
parent 1e3adbbc4a
commit 22b0ac5b22
1 changed files with 0 additions and 100 deletions
--- a/Dados.txt
+++ b/Dados.txt
@@ -1,100 +0,0 @@
 🔍 4.1 Visualização dos Dados Brutos
 Imagens:
 raw_data_feature_distribution.png
 raw_data_label_distribution.png
 📊 raw_data_feature_distribution.png
 Analisando a distribuição da feature Destination_Port:
 A densidade concentra-se em portas conhecidas (ex: 80, 443, 22, 21), o que é esperado em tráfego legítimo.
 Observa-se picos isolados em portas não convencionais, indicativo de atividades anômalas como port scans ou ataques que testam portas alternativas.
 A cauda longa mostra que há uma variedade grande de portas utilizadas, com uso esporádico – característica típica de datasets com ataques variados (como DDoS ou Botnet).
 📊 raw_data_label_distribution.png
 Forte desbalanceamento: o tráfego BENIGNO domina amplamente o conjunto de dados.
 Isso valida a preocupação expressa no artigo sobre a necessidade de estratégias de pré-processamento (como normalização, e eventualmente balanceamento de classes).
 Os ataques são diversos, mas individualmente minoritários. Isso ressalta a importância de interpretar o modelo com cuidado, pois ele pode tender a aprender o padrão benigno como dominante.
 🧼 4.2 Visualização Após Tratamento dos Dados
 Imagens:
 processed_data_feature_distribution.png
 processed_data_label_distribution.png
 📊 processed_data_feature_distribution.png
 Após normalização (Min-Max), os valores de Destination_Port foram re-escalados para o intervalo [0, 1].
 O histograma mantém a forma geral da distribuição, mas permite comparar valores com outras features normalizadas no mesmo intervalo.
 Os picos mantêm-se nos mesmos pontos (ex: 0.03, 0.08...), representando as portas mais comuns.
 A cauda longa permanece presente, mas com visualização mais limpa (sem outliers extremos que distorcem a escala).
 Interpretação visual:
 → A normalização não alterou a estrutura semântica da feature, o que é positivo: ela preserva os padrões enquanto permite que o modelo compare múltiplas features em igualdade de escala.
 📊 processed_data_label_distribution.png
 A distribuição de classes foi mantida após o tratamento – ou seja, não houve balanceamento artificial das classes.
 Isso é coerente com o objetivo do estudo, que focou na visualização e interpretabilidade, e não na maximização da performance via técnicas como SMOTE.
 O fato de o modelo ter atingido alta performance mesmo com classes desbalanceadas reforça a robustez do Random Forest e da engenharia de features realizada.
 🧠 4.3 Visualizações de Interpretabilidade com SHAP
 Imagens:
 shap_bar_plot.png
 shap_summary_plot.png
 shap_dependence_plot.png
 📊 shap_bar_plot.png
 Exibe a importância média de cada feature no modelo Random Forest.
 A feature mais importante é Destination_Port, seguida por variáveis relacionadas a fluxo (Flow_Duration, Flow_IAT_Max, Fwd_Packet_Length_Std etc).
 Essas features indicam características temporais e estruturais do tráfego, que são cruciais para distinguir entre comportamento normal e malicioso.
 Insights:
 Destination_Port domina por ser fortemente correlacionada a certos tipos de ataque (e.g., ataques a SSH, FTP, RDP).
 A combinação de múltiplas features temporais mostra que o modelo aprendeu padrões comportamentais de tráfego.
 📊 shap_summary_plot.png
 Vai além da média: mostra a distribuição dos valores SHAP por feature.
 Cada ponto representa uma amostra e sua contribuição para a classificação.
 A coloração representa o valor da feature (vermelho = alto, azul = baixo).
 Exemplo de interpretação:
 Para Destination_Port, valores altos (vermelho) tendem a contribuir para classificação como ataque, enquanto valores baixos (azul) muitas vezes indicam tráfego benigno.
 Isso confirma que portas incomuns estão associadas a comportamentos maliciosos no dataset.
 📊 shap_dependence_plot.png
 Exibe a relação entre o valor da feature mais importante (Destination_Port) e seu impacto SHAP.
 Mostra que para certas faixas de portas (principalmente as mais altas ou não padrão), há um aumento expressivo no valor SHAP → maior probabilidade de o modelo classificar como ataque.
 Pode-se observar clusters ou transições bruscas, indicando possíveis thresholds que o modelo implicitamente aprendeu.
 📌 Conclusão da Análise Visual
 Etapa	Gráfico	Insight Principal
 Dados Brutos	raw_data_feature_distribution	Presença de portas suspeitas; picos em portas padrão e anomalias em portas altas.
 raw_data_label_distribution	Desbalanceamento de classes.
 Dados Tratados	processed_data_feature_distribution	Distribuição preservada; normalização eficaz.
 processed_data_label_distribution	Desbalanceamento mantido para estudo realista.
 Interpretação com SHAP	shap_bar_plot	Destination_Port domina; features temporais também são muito relevantes.
 shap_summary_plot	Correlação clara entre valores altos da porta e ataques.
 shap_dependence_plot	Portas incomuns aumentam a probabilidade predita de ataque.