<aside> 💡 이 위키는 2022년 5월에 생긴 DDIA(Designing Data-Intensive Applications) 북클럽에서, DDIA에 대해 기록하고자 해서 만든 것입니다. DDIA에 대해 알고자 하는 분들은 누구나 DDIA를 둘러싼 여러 내용, 궁금증들도 자유롭게 기록해주세요.

기여자: 누구나

</aside>

우리가 할 수 있게 되야 하는 것

<aside> 💡 - 특정 목적에 맞는 기술을 결정하고 도구를 조합할 수 있다.

데이터 시스템을 확장성있게 만드는 방법을 안다.
애플리케이션을 고가용성으로 만드는 방법 안다.
시스템 규모가 커지고 요구사항이 바뀌더라도 오랜기간 쉽게 유지보수 할 수 있는 방법을 안다.
"많은 데이터가 만들어지고 있는데, 데이터를 잘 다듬고 정리하지 않으면 데이터로서 가치를 잃어버릴 수 있다.
데이터를 어떻게 잘 보관하고 보관된 데이터는 어떻게 효율적으로 사용할 수 있는지 안다".
구글이 데이터를 어떻게 다루는지 이해하기
큰 데이터를 다루는데 어떤 어려움이 있는지 파악하기
데이터 중심 애플리케이션의 도전과제가 무엇인지 알고, 해결하는 방법을 안다

</aside>

Part2 분산데이터

분산된 데이터베이스를 필요로 하는 이유

확장성
내결함성/고가용성

지연 시간

06. 파티셔닝

데이터셋이 매우 크거나 질의 처리량이 매우 높다면 복제만으로는 부족하고 데이터를 파티션으로 쪼갤 필요가 있다. ****이 작업을 샤딩이라고도 한다.

파티션을 나눌 때는 보통 각 데이터 단위(레코드, 로우, 문서)가 하나의 파티션에 속하게 한다.

각 파티션은 그 자체로 작은 데이터베이스가 된다. 따라서 대용향 데이터셋이 여러 디스크에 분산될 수 있고 질의 부하는 여러 프로세서에 분산될 수 있다.

파티셔닝과 복제

보통 복제와 파티셔닝을 함께 적용해 각 파티션의 복사본을 여러 노드에 저장한다. 각 레코드는 정확히 한 파티션에 속하더라도 이를 여러 다른 노드에 저장해서 내결함성을 보장할 수 있다는 의미이다.