Le 5 domande a cui un Data Scientist può rispondere
La figura emergente del _Data Scientist _si prefigge come obiettivo ultimo l'estrazione di informazione utile da un dataset preesistente.
In generale un Data Scientisti può rispondere a 5 tipologie di domande:
- Is this A or B?
- Is this weird?
- How much/ How many?
- How is this organized?
- What should i do next??
Per ciascuna tipologia di domanda vi è un diverso, specifico approccio al problema. Per ciascuna tipologia di problema vi sono specifiche categorie di algoritmi da utilizzare.
1. Is this A or B? — Algoritmi classificazione
Questi algoritmi permettono di assegnare una specifica risposta (ovvero assegnare u na categoria ad uno specifico attributo) sulla base di analisi effettuate su dati correttamente categorizzati in precedenza. Molto frequenti sono gli utilizzi di algoritmi 2-class classification (yes or no? A or B? true or false) a cui si contrappongono algoritmi di multi-class classification (etichetta scelta tra numerose—anche migliaia—alternative).
2. Is this weird? — Anomaly detection
Questa tipologia di algoritmi analizza i dati in input alla ricerca di comportamenti insoliti, strani o particolarmente sospetti. Sono particolarmente utilizzati in ambito di sicurezza per identificare tempestivaemnte frodi, attacchi o anomalie pericolose in un sistema.
3. How much/ How Many — Regression
Appartengo a questa categoria algoritmi che effetuano previsioni di tipo numerico.
4. How is this organized? — Clustering
A volte non ci servono delle risposte sui dati singoli quanto piuttosto indicazioni su come questi siano strutturati al loro interno. Ad esempio, identificando affinità, gruppi o suddivisioni caratterizzate da comportamenti o caratteristiche simili tra tutti i componenti del gruppo.
5. What should i do? — Reinforcement Learning
Algoritmi che cercano di dare una risposta ad una continua sequenza di piccole azioni da intraprendere. Solitamente applicato a automi o robot ma anche per foornire suggerimenti ad un utente sui passi da svolgere in funzione delle azioni che sta effettivamente svolgendo. Spesso questi algoritmi si adatta no a sistemi che raccolgono dati durante l'azione stessa, seguendo un principio di trial and error.