Detecção de Anomalias em Vídeos com Classificador Sequencial de Dados Composto Apenas por Camadas de Rede Neural Profunda

Nome: FÁBIO RICARDO OLIVEIRA BENTO
Tipo: Tese de doutorado
Data de publicação: 20/10/2023
Orientador:

Nomeordem decrescente Papel
PATRICK MARQUES CIARELLI Co-orientador
RAQUEL FRIZERA VASSALLO Orientador

Banca:

Nomeordem decrescente Papel
JUGURTA ROSA MONTALVÃO FILHO Examinador Externo
MARIANA RAMPINELLI FERNANDES Examinador Externo
PATRICK MARQUES CIARELLI Examinador Interno
PLINIO MORENO LÓPEZ Examinador Externo
RAQUEL FRIZERA VASSALLO Orientador

Resumo: Esta tese aborda o problema de detecção de anomalias, que consiste em identificar eventos que não se conformam a um padrão de comportamento esperado. No contexto específico desta pesquisa, o objetivo é desenvolver um método para a detecção automática de eventos anômalos em vídeos, utilizando exclusivamente informações dos frames. Essa abordagem é especialmente útil em situações em que dados auxiliares provenientes de algoritmos de detecção/rastreamento de objetos ou dados de pose humana não estão disponíveis ou não são confiáveis. A abordagem inicial adotada neste trabalho utiliza redes neurais convolucionais para extrair características espaciais dos dados. Em seguida, é empregado um classificador de séries temporais, composto por uma camada de convolução unidimensional e um conjunto de
redes neurais recorrentes. A metodologia proposta seleciona uma arquitetura convolucional pré-treinada como extrator de características e emprega a técnica de transferência de aprendizagem para adaptar a rede ao problema específico em questão. Foram conduzidos experimentos utilizando os conjuntos de dados UCSD Anomaly Detection e CUHK Avenue, e a avaliação foi baseada em métricas como a Area Under the Receiver Operating Characteristic Curve (AUC), a Area Under the Precision vs Recall Curve (AUPRC) e a Equal Error
Rate (EER). Os resultados obtidos pelo modelo demonstraram uma AUC superior a 92% e uma EER inferior a 9%, os quais estão em conformidade com os resultados encontrados na literatura atual sobre o assunto. Em seguida foi proposto um modelo que visa aprender as características globais e locais de cada frame em um vídeo de entrada. No nível do frame, empregou-se uma arquitetura baseada na FPN (Feature Pyramid Network) para extrair características globais. Por outro lado, no nível dos patches, adotou-se uma arquitetura fundamentada no ViT (Vision Transformer) para extrair características locais. Então, foi aplicado um classificador sequencial que combina redes Transformers e LSTM (Long Short-Term Memory) para gerar um escore de anomalia para cada frame. Isso é realizado com base em uma sequência de embeddings codificados por posição. Também, foi utilizada a função de perda Class-Balanced Focal Loss (CBFL) para lidar com o desequilíbrio entre as classes normal e anômala, proporcionando maior robustez ao modelo diante dessa disparidade. Foram conduzidos experimentos no conjunto de dados UBnormal, avaliando o desempenho da métrica AUC no nível de frame, tanto em sua versão micro quanto macro. Além disso, foram analisados os escores de anomalia ao longo do tempo no nível de frame, bem como os gráficos t-SNE para obter informações adicionais. Por fim, o resultado da avaliação, ponderado pelas métricas AUC micro-média e AUC macro-média, demonstrou consistência com o estado da arte atual.
Palavras-chave: cidades inteligentes, visão computacional, aprendizagem profunda, detecção de anomalias.

Acesso ao documento

Acesso à informação
Transparência Pública

© 2013 Universidade Federal do Espírito Santo. Todos os direitos reservados.
Av. Fernando Ferrari, 514 - Goiabeiras, Vitória - ES | CEP 29075-910