Le 5 domande a cui un Data Scientist può rispondere


La figura emergente del _Data Scientist _si prefigge come obiettivo ultimo l'estrazione di informazione utile da un dataset preesistente.

In generale un Data Scientisti può rispondere a 5 tipologie di domande:

  1. Is this A or B?
  2. Is this weird?
  3. How much/ How many?
  4. How is this organized?
  5. What should i do next??

Per ciascuna tipologia di domanda vi è un diverso, specifico approccio al problema. Per ciascuna tipologia di problema vi sono specifiche categorie di algoritmi da utilizzare.

1. Is this A or B? — Algoritmi classificazione

Questi algoritmi permettono di assegnare una specifica risposta (ovvero assegnare u na categoria ad uno specifico attributo) sulla base di analisi effettuate su dati correttamente categorizzati in precedenza. Molto frequenti sono gli utilizzi di algoritmi 2-class classification (yes or no? A or B? true or false) a cui si contrappongono algoritmi di multi-class classification (etichetta scelta tra numerose—anche migliaia—alternative).

2. Is this weird? — Anomaly detection

Questa tipologia di algoritmi analizza i dati in input alla ricerca di comportamenti insoliti, strani o particolarmente sospetti. Sono particolarmente utilizzati in ambito di sicurezza per identificare tempestivaemnte frodi, attacchi o anomalie pericolose in un sistema.

3. How much/ How Many — Regression

Appartengo a questa categoria algoritmi che effetuano previsioni di tipo numerico.

4. How is this organized? — Clustering

A volte non ci servono delle risposte sui dati singoli quanto piuttosto indicazioni su come questi siano strutturati al loro interno. Ad esempio, identificando affinità, gruppi o suddivisioni caratterizzate da comportamenti o caratteristiche simili tra tutti i componenti del gruppo.

5. What should i do? — Reinforcement Learning

Algoritmi che cercano di dare una risposta ad una continua sequenza di piccole azioni da intraprendere. Solitamente applicato a automi o robot ma anche per foornire suggerimenti ad un utente sui passi da svolgere in funzione delle azioni che sta effettivamente svolgendo. Spesso questi algoritmi si adatta no a sistemi che raccolgono dati durante l'azione stessa, seguendo un principio di trial and error.


REFERENCES

results matching ""

    No results matching ""