해시는 Key-Value 쌍으로 데이터를 저장하는 자료구조이다. 해시 알고리즘에 대한 예를 정리해 보았다.
2020년이 벌써 1/3 정도 지나가고 있지만, 2020년 빅데이터 트렌드에 관한 글: These are the Big Data Trends 2020을 정리해 보았습니다.
데이터 기반 서비스를 운영하려면, 데이터 마트를 구축하여 초 단위로 처리가 이루어져야 한다. 처리 시간을 줄이는 방법들을 정리해 보았다.
빅데이터 시대에 자리잡은 데이터 관리 방법의 특징을 정리해 보았다.
AWS Athena를 S3 데이터 쿼리용으로 사용하고 있었는데, Redshift도 데이터 쿼리 기능을 제공하는 MPP (Massive parallel processing) data warehouse 이다. 그래서 두 서비스 및 같이 비교하여 제공하고 있는 EMR까지 비교해 보았다.