광고 “데이터레이크”라는 단어는 최근 데이터 과학과 관련된 모든 사람의 입에서 나왔지만, 그것은 무엇일까요? 그리고 어떻게 관리할까요? 유용할까요? 데이터레이크가 기업이 경쟁자에 비해 약 9%의 매출 성장을 달성하는 데 도움이 된다는 것은 잘 알려진 사실입니다. 이는 엄청난 수치입니다. 따라서 데이터 과학자가 데이터레이크를 구성하는 데 대해 알아야 할 사항은 논의할 중요한 주제이며, 다음 간략한 검토에서 이에 대한 답을 찾아보겠습니다 재택부업.

데이터 레이크

“데이터”와 함께 “레이크”라는 단어를 사용하면 이러한 레이크가 실제로 원시 정보의 방대한 저장소이며 필요할 때까지 자연스러운 형태로 저장된다는 것을 분명히 나타냅니다. 저장된 데이터/정보는 어떤 식으로도 변경되지 않습니다. IoT 기기, 소셜 미디어, 모바일 앱, 비즈니스 애플리케이션과 같은 다양한 소스의 관계형 데이터/정보는 분류나 구조화 없이 원시 형태로 저장됩니다. 이 정보는 종종 기업에서 나중에 사용하기 위해 저장하며, 방대한 양의 데이터를 처리할 수 있는 AI 또는 머신 러닝 드라이브를 활용하여 지원되는 대량의 빅데이터가 정확한 통찰력을 제공할 수 있습니다.

데이터웨어하우스와의 차이점

이는 대량의 구조화된 데이터/정보가 잘 정리된 계층적 방식으로 저장되는 기존 데이터웨어하우스와는 상당히 다릅니다. 이러한 웨어하우스에서 데이터/정보는 파일이나 폴더로 저장되고 추출, 변경 및 재구성하여 품질을 개선할 수 있으며, 준비된 데이터는 필요에 따라 사용할 수 있습니다. 그러나 DataLakes는 플랫 아키텍처를 사용하여 데이터를 저장합니다. 그러나 정보는 형식이 지정되지 않았으므로 이러한 레이크는 비용 효율적이고 빠르게 작동합니다. 여기의 데이터/정보는 원시 물이 여과된 물과 다른 것처럼 원래 형식을 유지하면서 무작위일 수 있습니다. DataLakes가 처리할 수 있는 방대한 양의 정보가 웨어하우스보다 우수한 이유는 이러한 양을 편안하게 관리할 수 있는 도구가 현재 존재하기 때문입니다.

특정 도구

내보내기가 유용하고 관련성이 있도록 하려면 올바른 도구를 배포해야 하며, 그럴 때에만 DataLakes가 비즈니스에 가치가 있게 됩니다. 따라서 Hadoop과 같은 통합 도구는 이러한 종류의 애플리케이션에 이상적입니다. 동일한 Lake에서 너무 많은 다른 도구를 사용하려고 할 때 Lake의 정보는 오염되지 않아야 합니다. 또는 잠재적으로 유용한 정보가 버려지거나 다른 방식으로 손실될 수 있습니다. 적절한 품질 관리가 없으면 정보를 재사용할 수 없거나 정보를 찾는 데 너무 많은 시간이 걸려 더 이상 유용하지 않을 수 있습니다. 따라서 도구는 극도로 신중하게 선택해야 합니다.

합법성 및 개인 정보 보호

합법성과 프라이버시를 보호하기 위해 기업은 완전하고 완전한 데이터 관리를 관리하고 조직해야 합니다. 거의 모든 정보를 DataLake에 저장할 수 있다는 것은 사실이지만, 이것이 합법적인가? 수집된 정보로 인해 프라이버시가 침해되는가?라는 의문이 남습니다. 높은 데이터 보호 표준은 절대적으로 필요하며, 기업은 이를 절대적으로 통제하고 모니터링해야 합니다.

By admin