Hur uppnås datalokalisering i Hadoop?
Hur uppnås datalokalisering i Hadoop?

Video: Hur uppnås datalokalisering i Hadoop?

Video: Hur uppnås datalokalisering i Hadoop?
Video: hadoop yarn architecture 2024, November
Anonim

Datalokalisering i Hadoop . Ta exempel på Wordcount, där de flesta av orden har upprepats i 5 Lacs eller fler gånger. I det fallet efter Mapper-fasen kommer varje mappar-utgång att ha ord i intervallet 5 Lacs. Denna fullständiga process för att lagra Mapper-utdata till LFS kallas som Datalokalisering.

Med tanke på detta, vad är datalokalisering i Hadoop?

Konceptet av Data ort i Hadoop-data ort i MapReduce hänvisar till förmågan att flytta beräkningen nära där den faktiska data ligger på noden, istället för att flytta sig stort data till beräkning. Detta minimerar nätverksstockning och ökar systemets totala genomströmning.

Dessutom, hur lagras big data? De flesta associerar automatiskt HDFS, eller Hadoop Distributed File System, med Hadoop data lager. HDFS lagrar information i kluster som består av mindre block. Dessa block är lagrat fysiskt på plats lagring enheter, såsom interna diskenheter.

Bara så, hur lagras data i Hadoop?

På en Hadoop kluster, den data inom HDFS och MapReduce-systemet finns på varje maskin i klustret. Data är lagrat i data block på DataNodes. HDFS replikerar dessa data block, vanligtvis 128 MB i storlek, och distribuerar dem så att de replikeras inom flera noder över klustret.

Hur lagras filer i HDFS?

HDFS avslöjar en fil systemnamnutrymme och tillåter användardata att vara lagrat i filer . Internt, a fil är uppdelad i ett eller flera block och dessa block är lagrat i en uppsättning DataNodes. NameNode körs fil systemnamnutrymmesoperationer som att öppna, stänga och byta namn filer och kataloger.

Rekommenderad: