Buscar este blog

miércoles, 30 de marzo de 2022

PIG LATIN

Eliminar los duplicados de un archivo en HDFS con PIG. 

informePig = LOAD $entradaInfUno USING PigStorage(';') as (CAMPO1:chararray,CAMPO2:chararray); 

informeSinDuplicados = DISTINCT informePig; 
store informeSinDuplicados INTO '$salidaInfUno' USING PigStorage(';'); 

 Importante las comillas en $salidaInfUno. 

 Para la llamada al PIG. 

 pig -param entradaInfUno=$rutaficherosentrada -param salidaInfUno=$rutaficherossalida -file $rutadelarchivopig 

 Eliminar los duplicados, y en el caso de existir varios, quedarnos con fecha mayor.

 informePig = LOAD $entradaInfDos USING PigStorage(';') as (CAMPO1:chararray,CAMPO2:chararray);; 

 informe = DISTINCT informePig; agrupados = group informe by (CAMPO1:chararray,CAMPO2:chararray); no meter la fecha. 

 res = foreach agrupados 
sorted = order informe BY fechaIni ASC; 
top = limit sorted 1; 
generate flatten(top); 
}; 

 store res INTO $salidaInfDos USING PigStorage(';');

No hay comentarios: