Vad är problemet med små filer i Hadoop?
Vad är problemet med små filer i Hadoop?

Video: Vad är problemet med små filer i Hadoop?

Video: Vad är problemet med små filer i Hadoop?
Video: Hadoop Small File Issue | Hadoop Interview Questions 2024, Maj
Anonim

1) Problem med liten fil i HDFS : Lagring av mycket små filer som är extremt mindre än blockstorleken inte kan hanteras effektivt av HDFS . Läser igenom små filer involverar massor av sökningar och massor av hopp mellan datanod till datanod, vilket är en ineffektiv databehandling.

Förutom detta, vilka filer hanterar små filproblem i Hadoop?

1) HAR ( Hadoop Arkiv) Filer har introducerats till hantera problem med små filer . HAR har infört ett lager ovanpå HDFS , som tillhandahåller gränssnitt för fil åtkomst. Använder sig av Hadoop arkivkommando, HAR filer skapas, som kör en MapReduce jobb att packa filer arkiveras i mindre antal HDFS-filer.

Kan jag dessutom ha flera filer i HDFS med olika blockstorlekar? Standard storlek av blockera är 64 MB. du burk ändra det beroende på dina krav. Kommer till din fråga ja du kan skapa flera filer genom att variera blockstorlekar men i realtid detta kommer inte gynna produktionen.

Dessutom, varför hanterar inte HDFS små filer optimalt?

Problem med små filer och HDFS Varje fil , katalog och blockera HDFS är representeras som ett objekt i namnnodens minne, som vart och ett upptar 150 byte, som en tumregel. Vidare, HDFS är det inte inriktad på effektiv åtkomst små filer : den är främst designad för streaming åtkomst av stora filer.

Varför är Hadoop långsam?

Långsam Bearbetningshastighet Denna disksökning tar tid vilket gör hela processen väldigt långsam . Om Hadoop bearbetar data i liten volym, det är mycket långsam jämförelsevis. Den är idealisk för stora datamängder. Som Hadoop har en batchbearbetningsmotor i kärnan, dess hastighet för realtidsbearbetning är lägre.

Rekommenderad: