Condividi:

Condividi su facebook
Condividi su twitter
Condividi su linkedin
Condividi su whatsapp
Condividi su telegram

Come è facile intuire, un dataset è un insieme di dati. Nei casi più semplici, un dataset si presenta sotto forma di tabella, dove i dati sono organizzati in questo modo:

  • Le righe corrispondono a ciascuna osservazione del fenomeno analizzato;
  • Le colonne corrispondono alle caratteristiche osservate e sono dette features.
Parte del famoso dataset Iris, nel quale le colonne indicano lunghezza e larghezza del sepalo, del petalo e la denominazione, mentre ogni riga corrisponde ad un fiore.

Ma il termine dataset non è da associare esclusivamente alle tabelle: anche insiemi di immagini o file audio sono considerati tali.

Per comprendere meglio questo concetto, è importante conoscere la natura dei dati, quali caratteristiche possono avere e la loro struttura.

Quali sono le tipologie di dati?

I dati si dividono principalmente in tre categorie:

  • Strutturati: dati conservati utilizzando uno schema predefinito e tipicamente organizzati in un formato tabellare;
  • Non strutturati: dati conservati senza alcuno schema e che, per loro natura, non possono essere organizzati come quelli strutturati (es.: immagini, audio e video);
  • Semi strutturati: dati organizzati secondo una logica ma che non hanno un limite strutturale all’inserimento dei dati (es.: file xml e html).

Un dataset quindi può assumere forme completamente diverse in base alla struttura dei dati presenti.

Questi dati vengono raccolti all’interno di strutture, denominate generalmente database.

Cos’è un database?

Un database è un contenitore che raccoglie in tempo reale, organizza e conserva i dati: molto spesso ciò avviene secondo una logica relazionale.

Un database relazionale è formato da diverse tabelle che comunicano tra loro tramite chiavi identificative, univoche per ogni osservazione.

Un esempio di database relazionale, in cui ogni osservazione di prestito di un libro è suddivisa in tre tabelle con tre identificativi univoci nel database per prestito, libro e utente

Esistono anche database non relazionali, dove non sono presenti schemi rigidi per la raccolta e l’organizzazione dei dati.

Per i Big Data non si parla più di database, ma di altre architetture come data warehouse e data lake.

Differenze tra database e dataset.

Molto semplicemente, la differenza tra un dataset e un database sta proprio nella funzione di ciascuno.

Un database ha lo scopo di raccogliere, conservare e organizzare i dati in maniera sicura.

Invece la funzione di un dataset è proprio quella analitica: si hanno una serie di osservazioni con determinate caratteristiche che permettono di studiare un certo fenomeno.

Possiamo vedere il dataset come un sottoinsieme di un database, poiché spesso sono il risultato di un’estrazione di dati da un database.

Come viene utilizzato un dataset in ambito AI?

Collegandoci all’intelligenza artificiale, si utilizzano proprio i dataset per costruire modelli in grado di prevedere un certo fenomeno.

Gran parte del lavoro di un data scientist riguarda proprio la manipolazione dei dataset: l’obiettivo è quello di ottenerne uno “pulito”, così che un algoritmo possa apprendere dai dati per scopi predittivi.

Le tecniche di Machine Learning sono utilizzate principalmente su dataset in formato tabellare, o che comunque possano essere convertiti in questa tipologia.

Invece con il Deep Learning è possibile analizzare dataset più grandi e complessi, popolati da dati solitamente non strutturati.

Rimani aggiornato! Seguici anche su Instagram e LinkedIn.

Condividi su facebook
Condividi su twitter
Condividi su linkedin
Condividi su whatsapp
Condividi su telegram
Edoardo Di Toma

Edoardo Di Toma

Junior Data Scientist in Vedrai S.p.A. e laureato in Management e Finanza. Ho completato il master in Data Science e Intelligenza Artificiale di Talent Garden Innovation School. Oltre che di data science, sono appassionato di musica, boardgames, calcio e tanto altro.
Iscriviti
Notificami
guest
0 Commenti
Inline Feedback
Vedi tutti i commenti