Sinopse
O conjunto de dados georreferenciados fornecido pela CARRIS, com aproximadamente 22 milhões de registos relativos a 2 meses de operação, representa o estado de cada um dos autocarros em operação. Dado o volume dos dados, foi desenvolvido um pipeline em Pentaho Data Integration para ingestão numa base de dados espacial PostgreSQL, onde foram calculadas distâncias e tempos percorridos.
Após pré-processamento, explorou-se a velocidade média dos autocarros por dia da semana e hora. Com base em cruzamentos espaciais com dados de eventos (como jogos de futebol) e contagem de terminais móveis (dados da Vodafone), foram geradas novas variáveis.
Nesta primeira análise do impacto de eventos, por falta de capacidade de processamento, foi usada uma resolução temporal bastante baixa (dados agregados por dias e linhas). Observou-se por isso uma redução média de (apenas) 2% a 5% na velocidade comercial em dias de eventos. Numa análise futura, mais fina, espera-se que o impacto dos eventos seja substancialmente superior em determinadas linhas da CARRIS e janelas temporais mais específicas. Foram ainda testados alguns modelos preditivos, que mostraram resultados promissores mas ainda com margem para melhorias. O uso de modelos terá potencial para antecipar e mitigar impactos futuros.
Nota Biográfica
Nuno Lavado, que vem apresentar o trabalho realizado pela aluna Sandra Alvarez do Mestrado em Engenharia Informática - especialização em Análise Inteligente de Dados, é Professor Adjunto no Instituto Superior de Engenharia de Coimbra do Politécnico de Coimbra e Investigador Integrado no Centro de Investigação em Gestão de Ativos e Engenharia de Sistemas (RCM2+). É Doutorado em Métodos Quantitativos, Estatística e Análise de Dados pela ISCTE-IUL Business School, Mestre em Estatística e Gestão de Informação pela NOVA IMS e Licenciado em Matemática pela FCUL. É inventor listado no pedido de patente nacional n.º 117291, coautor de artigos científicos publicados em revistas e conferências internacionais, com contributos para o desenho de investigação e Ciência de Dados Aplicada.
(Nota: Autoria do Trabalho - Sandra Alvarez)