Nell'intelligenza artificiale i dati iniziali possono essere documenti omogenei o disomogenei: tuttavia i primi devono essere etichettati, di solito a mano.
Il sistema prenderà ad esempio le etichette per poi cercare di individuare altri parametri.
Più l'etichetta è inequivoca per il contenuto alla quale viene apposta, meglio sarà usata in futuro per individuare altri parametri adeguati.
L'attività di data mining sul web di norma estrae etichette sfruttando gli standard html e quelli utilizzati de facto.
Il termine omogeneo in gergo è sostituito da "strutturato" o "non strutturato".
E' una attività importantissima di preaddestramento.
Possono essere usati dati sintetici o dati reali.
Il software usato per l'etichettatura è spesso omesso da ogni spiegazione in materia.
Qui una ottima trattazione.