Le 5 domande a cui un Data Scientist può rispondere

La figura emergente del _Data Scientist _si prefigge come obiettivo ultimo l'estrazione di informazione utile da un dataset preesistente.

In generale un Data Scientisti può rispondere a 5 tipologie di domande:

Is this A or B?
Is this weird?
How much/ How many?
How is this organized?
What should i do next??

Per ciascuna tipologia di domanda vi è un diverso, specifico approccio al problema. Per ciascuna tipologia di problema vi sono specifiche categorie di algoritmi da utilizzare.

1. Is this A or B? — Algoritmi classificazione

Questi algoritmi permettono di assegnare una specifica risposta (ovvero assegnare u na categoria ad uno specifico attributo) sulla base di analisi effettuate su dati correttamente categorizzati in precedenza. Molto frequenti sono gli utilizzi di algoritmi 2-class classification (yes or no? A or B? true or false) a cui si contrappongono algoritmi di multi-class classification (etichetta scelta tra numerose—anche migliaia—alternative).

2. Is this weird? — Anomaly detection

Questa tipologia di algoritmi analizza i dati in input alla ricerca di comportamenti insoliti, strani o particolarmente sospetti. Sono particolarmente utilizzati in ambito di sicurezza per identificare tempestivaemnte frodi, attacchi o anomalie pericolose in un sistema.

3. How much/ How Many — Regression

Appartengo a questa categoria algoritmi che effetuano previsioni di tipo numerico.

4. How is this organized? — Clustering

A volte non ci servono delle risposte sui dati singoli quanto piuttosto indicazioni su come questi siano strutturati al loro interno. Ad esempio, identificando affinità, gruppi o suddivisioni caratterizzate da comportamenti o caratteristiche simili tra tutti i componenti del gruppo.

5. What should i do? — Reinforcement Learning

Algoritmi che cercano di dare una risposta ad una continua sequenza di piccole azioni da intraprendere. Solitamente applicato a automi o robot ma anche per foornire suggerimenti ad un utente sui passi da svolgere in funzione delle azioni che sta effettivamente svolgendo. Spesso questi algoritmi si adatta no a sistemi che raccolgono dati durante l'azione stessa, seguendo un principio di trial and error.

REFERENCES

https://docs.microsoft.com/en-us/azure/machine-learning/machine-learning-data-science-for-beginners-the-5-questions-data-science-answers

Le 5 domande di un Data Scientist