Vad är databehandlingsmotorn bakom Amazon Elastic MapReduce?
Vad är databehandlingsmotorn bakom Amazon Elastic MapReduce?

Video: Vad är databehandlingsmotorn bakom Amazon Elastic MapReduce?

Video: Vad är databehandlingsmotorn bakom Amazon Elastic MapReduce?
Video: Kenneth Cukier: Big data is better data 2024, Maj
Anonim

Amazon EMR använder Apache Hadoop som distribuerad databehandlingsmotor . Hadoop är ett Java-ramverk med öppen källkod som stöder data -Intensiva distribuerade applikationer som körs på stora kluster av råvaruhårdvara.

Dessutom, vad är Amazon Elastic MapReduce?

Amazon Elastic MapReduce ( EMR ) är en Amazon webbtjänster ( AWS ) verktyg för stordatabearbetning och analys. Amazon EMR bearbetar stora data över ett Hadoop-kluster av virtuella servrar på Amazon Elastic Compute Cloud ( EC2 ) och Amazon Enkel lagringstjänst ( S3 ).

Dessutom, hanteras Amazon EMR helt? Det är en helt hanteras datasjötjänst som kan frikoppla datalagring från beräkningsresurser och istället gör beräkningskluster skalbara, tillgängliga för att användas på begäran, och inkluderar möjligheten för flera kluster att komma åt samma datamängder samtidigt.

Man kan också fråga sig, hur fungerar AWS EMR?

I allmänhet när du bearbetar data i Amazon EMR , indata är data lagrade som filer i ditt valda underliggande filsystem, som t.ex Amazon S3 eller HDFS. Dessa data går från ett steg till nästa i bearbetningssekvensen. Det sista steget skriver utdata till en specificerad plats, såsom en Amazon S3 hink.

Vad är skillnaden mellan ec2 och EMR?

Till skillnad från EMR , EC2 kategoriserar inte slavnoder i kärn- och uppgiftsnoder. Detta ökar risken för att förlora HDFS-data om en nod tas bort/försvinner. EC2 använder Apache-bibliotek (s3a) för att komma åt data på s3. Å andra sidan, EMR använder AWS proprietär kod för att få snabbare åtkomst till s3.

Rekommenderad: