informePig = LOAD $entradaInfUno USING PigStorage(';') as (CAMPO1:chararray,CAMPO2:chararray);
informeSinDuplicados = DISTINCT informePig;
store informeSinDuplicados INTO '$salidaInfUno' USING PigStorage(';');
Importante las comillas en $salidaInfUno.
Para la llamada al PIG.
pig -param entradaInfUno=$rutaficherosentrada -param salidaInfUno=$rutaficherossalida -file $rutadelarchivopig
Eliminar los duplicados, y en el caso de existir varios, quedarnos con fecha mayor.
informePig = LOAD $entradaInfDos USING PigStorage(';') as (CAMPO1:chararray,CAMPO2:chararray);;
informe = DISTINCT informePig;
agrupados = group informe by (CAMPO1:chararray,CAMPO2:chararray); no meter la fecha.
res = foreach agrupados
{
sorted = order informe BY fechaIni ASC;
top = limit sorted 1;
generate flatten(top);
};
store res INTO $salidaInfDos USING PigStorage(';');
No hay comentarios:
Publicar un comentario