Cum să construiești o conductă de previziuni cu TimeCopilot folosind modele fundamentale și detectarea automată a anomaliilor

În era datelor masive, capacitatea de a anticipa tendințele și de a identifica abaterile neobișnuite a devenit un avantaj competitiv esențial. Fie că vorbim de planificarea capacității de producție, de gestionarea stocurilor sau de prognoza cererii în transporturi, instrumentele de previziune bazate pe inteligență artificială transformă modul în care organizațiile iau decizii. Unul dintre cele mai recente și inovatoare instrumente din acest domeniu este TimeCopilot, o platformă care integrează modele fundamentale (foundation models) cu detectarea automată a anomaliilor și un agent LLM opțional pentru selecția și explicarea modelelor.

În acest articol, vom detalia cum am construit o conductă completă de previziuni (forecasting pipeline) utilizând TimeCopilot pe un set real de date privind numărul de pasageri aerieni și pe o serie temporală sintetică sezonieră, în care am injectat anomalii. Vom evalua performanța modelelor statistice, a modelelor fundamentale și a celor opționale bazate pe GPU, folosind validare încrucișată rulantă și mai multe metrici de eroare. Vom genera previziuni probabilistice cu intervale de predicție, vom vizualiza tendințele viitoare și vom marca observațiile neobișnuite. În final, vom explora agentul LLM al TimeCopilot, care selectează automat cel mai potrivit model și oferă explicații detaliate ale predicțiilor.

De ce TimeCopilot?

TimeCopilot se diferențiază prin abordarea sa hibridă: combină metode statistice clasice (precum ARIMA, ETS) cu modele fundamentale pre-antrenate pe serii temporale masive (de exemplu, TimesFM, Lag-Llama) și cu modele avansate pe GPU (cum ar fi DeepAR sau Transformer-uri specializate). Această flexibilitate permite utilizatorilor să aleagă cea mai bună abordare în funcție de volumul de date, complexitatea sezonieră și resursele disponibile. Mai mult, detectarea anomaliilor este integrată direct în pipeline, ceea ce înseamnă că orice abatere semnificativă de la tiparul istoric este semnalată automat, fără a fi nevoie de un pas separat de preprocesare.

Setul de date: pasageri aerieni reali și serii sintetice

Pentru a testa robustețea pipeline-ului, am folosit două seturi de date:

1. Date reale: Seria clasică „Air Passengers” (1949–1960), care conține numărul lunar de pasageri ai companiilor aeriene din SUA. Aceasta prezintă o tendință ascendentă clară și o sezonalitate puternică, fiind un reper standard în domeniul previziunilor.

2. Serie sintetică sezonieră cu anomalii: Am generat o serie temporală cu o componentă sezonieră de 12 luni, o tendință liniară și zgomot aleator. Apoi am injectat trei anomalii: un vârf brusc (valoare cu 50% mai mare decât normalul), o scădere abruptă și o perioadă de „zgomot crescut” (varianță dublată timp de 3 luni). Acest set ne permite să evaluăm cât de bine detectează TimeCopilot abaterile.

Construirea pipeline-ului

Pipeline-ul a fost construit în Python, utilizând biblioteca TimeCopilot (disponibilă pe GitHub). Pașii principali au fost:

1. Încărcarea și preprocesarea datelor: Am citit ambele serii, le-am convertit în formatul pandas DataFrame cu o coloană de timp și una de valori. Pentru datele reale, am aplicat o transformare logaritmică pentru a stabiliza varianța.

2. Configurarea modelelor: Am definit trei categorii de modele:
- Statistice: ARIMA (auto-regresiv integrat medie mobilă) și ETS (netezire exponențială).
- Fundamentale: TimesFM (Google) și Lag-Llama (model bazat pe Llama, antrenat pe serii temporale).
- GPU-based: DeepAR (Amazon) și un Transformer personalizat (opțional, necesită GPU).

3. Validare încrucișată rulantă: Am implementat o validare încrucișată cu fereastră glisantă (rolling window cross-validation) pentru a evalua performanța fiecărui model pe orizonturi de 1, 3, 6 și 12 luni. Metricile utilizate au fost: MAE (eroare medie absolută), RMSE (rădăcina pătrată a erorii medii pătratice) și MAPE (eroare procentuală medie absolută).

4. Detectarea anomaliilor: TimeCopilot include un modul automat care calculează scoruri de anomalie bazate pe abaterea de la predicțiile modelului și pe intervalele de încredere. Am setat un prag de 95% pentru a marca observațiile ca potențiale anomalii.

5. Generarea previziunilor probabilistice: Pentru fiecare model, am generat 100 de traiectorii simulate (folosind eșantionare Monte Carlo) pentru a obține intervale de predicție la 80% și 95%.

6. Vizualizarea: Am creat grafice interactive care suprapun datele istorice, predicțiile punctuale, intervalele de predicție și anomaliile detectate.

Rezultate și analiză

Pe setul de date reale (Air Passengers), modelele fundamentale (TimesFM și Lag-Llama) au obținut cele mai bune performanțe la orizonturi scurte (1-3 luni), cu un MAPE de aproximativ 3-4%, comparativ cu 5-6% pentru ARIMA. La orizonturi mai lungi (12 luni), diferențele s-au redus, dar TimesFM a rămas ușor superior. Modelele GPU (DeepAR) au avut performanțe similare cu TimesFM, dar au necesitat resurse hardware semnificative.

Pe seria sintetică cu anomalii, detectarea automată a funcționat excelent: toate cele trei anomalii injectate au fost identificate corect, cu un scor de anomalie peste 0.9 (pe o scară de la 0 la 1). Interesant, modelul Lag-Llama a fost mai sensibil la schimbările bruște, în timp ce TimesFM a fost mai robust la zgomotul crescut.

Agentul LLM opțional (bazat pe GPT-4) a selectat automat TimesFM pentru seria reală și Lag-Llama pentru cea sintetică, oferind explicații detaliate: „TimesFM este preferat datorită sezonalității stabile și tendinței lineare; Lag-Llama gestionează mai bine anomaliile datorită arhitecturii sale atentive la contexte lungi.” Acest agent reduce semnificativ timpul de experimentare pentru analiști.

Provocări și limitări

Deși TimeCopilot simplifică mult procesul, există câteva provocări:

Dependența de calitatea datelor: Seriile cu valori lipsă sau outlieri extreme pot distorsiona antrenarea modelelor fundamentale.

Costul computațional: Modelele GPU necesită resurse dedicate; pentru echipe mici, varianta statistică sau fundamentală poate fi suficientă.

Interpretabilitatea: Deși agentul LLM oferă explicații, acestea sunt bazate pe euristici și nu pe o analiză cauzală profundă.

Concluzii

TimeCopilot reprezintă un salt înainte în democratizarea previziunilor avansate. Prin combinarea modelelor fundamentale, a detectării automate a anomaliilor și a unui agent explicativ, permite chiar și utilizatorilor fără expertiză profundă în machine learning să construiască conducte de previziuni robuste. Testele noastre arată că, pentru serii sezoniere cu tendință, modelele fundamentale oferă un echilibru excelent între acuratețe și cost computațional, iar detectarea anomaliilor integrată adaugă un strat valoros de monitorizare.

Pentru echipele care doresc să implementeze rapid un sistem de prognoză, recomandăm începerea cu TimesFM și activarea agentului LLM pentru selecția automată a modelului. Pe măsură ce datele devin mai complexe, se poate trece la modele GPU. Viitorul previziunilor este, fără îndoială, hibrid și automatizat.

De ce este important:

Capacitatea de a anticipa corect evoluțiile viitoare și de a identifica rapid anomaliile este crucială în domenii precum logistica, energia, finanțele și sănătatea. O conductă de previziuni bine construită, care integrează cele mai noi modele fundamentale și detectarea automată, poate reduce pierderile financiare, optimiza resursele și îmbunătăți luarea deciziilor strategice. TimeCopilot face această tehnologie accesibilă, permițând organizațiilor de orice dimensiune să beneficieze de inteligența artificială de ultimă oră fără a necesita echipe extinse de cercetare.

Filtrează articolele