Vad är en datasjö i Hadoop?
Vad är en datasjö i Hadoop?

Video: Vad är en datasjö i Hadoop?

Video: Vad är en datasjö i Hadoop?
Video: What is a Data Lake? 2024, Maj
Anonim

A Hadoop data lake är en data förvaltningsplattform som omfattar en eller flera Hadoop kluster. Det används huvudsakligen för att bearbeta och lagra icke-relationella data , såsom loggfiler, klickströmsposter på internet, sensor data , JSON-objekt, bilder och inlägg på sociala medier.

I detta avseende, vad är skillnaden mellan ett datalager och en datasjö?

Datasjöar och data lager är båda ofta används för att lagra stora data , men de är inte utbytbara termer. A datasjö är en stor pool av råmaterial data , vars syfte ännu inte är definierat. A datalager är ett arkiv för strukturerade, filtrerade data som redan har behandlats för ett specifikt ändamål.

Dessutom, vad är en datasjöarkitektur? A Data Lake är ett lagringsförråd som kan lagra stora mängder strukturerat, semi-strukturerat och ostrukturerat data . Till skillnad från ett hierarkiskt Dataware-hus där data lagras i filer och mapp, Datasjö har en lägenhet arkitektur.

Med avseende på detta, vad menas med datasjö?

A datasjö är ett lagringsförråd som rymmer en stor mängd råmaterial data i sitt ursprungliga format tills det behövs. Medan en hierarkisk data lagerbutiker data i filer eller mappar, a datasjö använder en platt arkitektur för att lagra data . Termen datasjö förknippas ofta med Hadoop-orienterad objektlagring.

Är Elasticsearch en datasjö?

A datasjö är helt enkelt en plats att parkera din data tills du behöver det, och det kan omfatta HDFS (vanligast), objektlagring, NAS-boxar eller något annat. I grunden Elasticsearch är ett verktyg för indexering data , inte för förvaring av data sig.

Rekommenderad: