Vad är reducera med nyckel?
Vad är reducera med nyckel?

Video: Vad är reducera med nyckel?

Video: Vad är reducera med nyckel?
Video: Nyckelfri hemtjänst med digitala lås från Tunstall 2024, Maj
Anonim

Spark RDD reduceByKey-funktionen slår samman värdena för varje nyckel - med hjälp av ett associativ minska fungera. Det betyder intuitivt att den här funktionen ger samma resultat när den appliceras upprepade gånger på samma uppsättning RDD-data med flera partitioner, oavsett elementets ordning.

Vad är då skillnaden mellan groupByKey och reduceByKey?

groupByKey () är bara att gruppera din datauppsättning baserat på en nyckel. reduceByKey () är ungefär som gruppering + aggregering. reduceByKey kan användas när vi kör på stora datamängder. aggregateByKey() är logiskt samma som reduceByKey () men det låter dig returnera resultatet annorlunda typ.

Vet också, varför minska är åtgärder i gnista? Minska gnistan operation är en handling typ av operation och det utlöser en fullständig DAG-exekvering för alla uppradade lata instruktioner. Gnista RDD minska funktion reducerar elementen i denna RDD med den angivna kommutativa och associativa binära operatorn. Minska gnistan operationen är nästan likadan som minska metod i Scala.

Förutom ovan, vad är Pairrdd?

Spark tillhandahåller speciella operationer på RDD:er som innehåller nyckel/värdepar. Dessa RDD:er kallas par RDD:er. Par RDD:er är en användbar byggsten i många program, eftersom de exponerar operationer som låter dig agera på varje nyckel parallellt eller omgruppera data över nätverket. ParRDDs är NYCKEL/VÄRDE-par.

Är reduceByKey en åtgärd?

reduce() matar ut en samling som inte läggs till den riktade acykliska grafen (DAG) så implementeras som en handling . Dock, reduceByKey () returnerar en RDD som bara är en annan nivå/tillstånd i DAG, därför är en transformation.

Rekommenderad: