From 22b0ac5b22083909df388f122c932e9bf17f19e0 Mon Sep 17 00:00:00 2001 From: "tiago.ferreira" Date: Tue, 29 Jul 2025 01:41:46 +0000 Subject: [PATCH] Excluir Dados.txt --- Dados.txt | 100 ------------------------------------------------------ 1 file changed, 100 deletions(-) delete mode 100644 Dados.txt diff --git a/Dados.txt b/Dados.txt deleted file mode 100644 index 32f63dd..0000000 --- a/Dados.txt +++ /dev/null @@ -1,100 +0,0 @@ -🔍 4.1 Visualização dos Dados Brutos -Imagens: - -raw_data_feature_distribution.png - -raw_data_label_distribution.png - -📊 raw_data_feature_distribution.png -Analisando a distribuição da feature Destination_Port: - -A densidade concentra-se em portas conhecidas (ex: 80, 443, 22, 21), o que é esperado em tráfego legítimo. - -Observa-se picos isolados em portas não convencionais, indicativo de atividades anômalas como port scans ou ataques que testam portas alternativas. - -A cauda longa mostra que há uma variedade grande de portas utilizadas, com uso esporádico – característica típica de datasets com ataques variados (como DDoS ou Botnet). - -📊 raw_data_label_distribution.png -Forte desbalanceamento: o tráfego BENIGNO domina amplamente o conjunto de dados. - -Isso valida a preocupação expressa no artigo sobre a necessidade de estratégias de pré-processamento (como normalização, e eventualmente balanceamento de classes). - -Os ataques são diversos, mas individualmente minoritários. Isso ressalta a importância de interpretar o modelo com cuidado, pois ele pode tender a aprender o padrão benigno como dominante. - -🧼 4.2 Visualização Após Tratamento dos Dados -Imagens: - -processed_data_feature_distribution.png - -processed_data_label_distribution.png - -📊 processed_data_feature_distribution.png -Após normalização (Min-Max), os valores de Destination_Port foram re-escalados para o intervalo [0, 1]. - -O histograma mantém a forma geral da distribuição, mas permite comparar valores com outras features normalizadas no mesmo intervalo. - -Os picos mantêm-se nos mesmos pontos (ex: 0.03, 0.08...), representando as portas mais comuns. - -A cauda longa permanece presente, mas com visualização mais limpa (sem outliers extremos que distorcem a escala). - -Interpretação visual: -→ A normalização não alterou a estrutura semântica da feature, o que é positivo: ela preserva os padrões enquanto permite que o modelo compare múltiplas features em igualdade de escala. - -📊 processed_data_label_distribution.png -A distribuição de classes foi mantida após o tratamento – ou seja, não houve balanceamento artificial das classes. - -Isso é coerente com o objetivo do estudo, que focou na visualização e interpretabilidade, e não na maximização da performance via técnicas como SMOTE. - -O fato de o modelo ter atingido alta performance mesmo com classes desbalanceadas reforça a robustez do Random Forest e da engenharia de features realizada. - -🧠 4.3 Visualizações de Interpretabilidade com SHAP -Imagens: - -shap_bar_plot.png - -shap_summary_plot.png - -shap_dependence_plot.png - -📊 shap_bar_plot.png -Exibe a importância média de cada feature no modelo Random Forest. - -A feature mais importante é Destination_Port, seguida por variáveis relacionadas a fluxo (Flow_Duration, Flow_IAT_Max, Fwd_Packet_Length_Std etc). - -Essas features indicam características temporais e estruturais do tráfego, que são cruciais para distinguir entre comportamento normal e malicioso. - -Insights: - -Destination_Port domina por ser fortemente correlacionada a certos tipos de ataque (e.g., ataques a SSH, FTP, RDP). - -A combinação de múltiplas features temporais mostra que o modelo aprendeu padrões comportamentais de tráfego. - -📊 shap_summary_plot.png -Vai além da média: mostra a distribuição dos valores SHAP por feature. - -Cada ponto representa uma amostra e sua contribuição para a classificação. - -A coloração representa o valor da feature (vermelho = alto, azul = baixo). - -Exemplo de interpretação: - -Para Destination_Port, valores altos (vermelho) tendem a contribuir para classificação como ataque, enquanto valores baixos (azul) muitas vezes indicam tráfego benigno. - -Isso confirma que portas incomuns estão associadas a comportamentos maliciosos no dataset. - -📊 shap_dependence_plot.png -Exibe a relação entre o valor da feature mais importante (Destination_Port) e seu impacto SHAP. - -Mostra que para certas faixas de portas (principalmente as mais altas ou não padrão), há um aumento expressivo no valor SHAP → maior probabilidade de o modelo classificar como ataque. - -Pode-se observar clusters ou transições bruscas, indicando possíveis thresholds que o modelo implicitamente aprendeu. - -📌 Conclusão da Análise Visual -Etapa Gráfico Insight Principal -Dados Brutos raw_data_feature_distribution Presença de portas suspeitas; picos em portas padrão e anomalias em portas altas. -raw_data_label_distribution Desbalanceamento de classes. -Dados Tratados processed_data_feature_distribution Distribuição preservada; normalização eficaz. -processed_data_label_distribution Desbalanceamento mantido para estudo realista. -Interpretação com SHAP shap_bar_plot Destination_Port domina; features temporais também são muito relevantes. -shap_summary_plot Correlação clara entre valores altos da porta e ataques. -shap_dependence_plot Portas incomuns aumentam a probabilidade predita de ataque. \ No newline at end of file