Twitter에서는 HDFS에 SNS에서 발생한 대량의 데이터를 저장하는데, 데이터의 양이 방대해 너무 많은 디스크를 소모하는 것을 개선하기 위해 데이터 사이즈를 줄이는 파일 포맷을 개발하게 됨.
→ 작은 파일 사이즈와 낮은 I/O 사용을 목적으로 개발
<aside> 💡 한줄 요약 : 열을 기반으로 데이터를 처리하면 행 기반으로 압축 했을때에 비해 데이터의 압축률이 더 높고, 필요한 열의 데이터만 읽어서 처리하는 것이 가능하기 때문에 데이터 처리에 들어가는 지원을 절약할 수 있음.
</aside>


Encoding:
In computers, encoding is the process of putting a sequence of characters (letters, numbers, punctuation, and certain symbols) into a specialized format for efficient transmission or storage.
<aside> 💡 Delta Encoding It involves storing the difference between adjacent values in a column, rather than storing each value individually.
[10, 12, 15, 18, 20] → [10, +2, +3, +3, +2]
[2023-04-19 10:00:00, 2023-04-19 10:10:00, 2023-04-19 10:20:00] → [2023-04-19 10:00:00, +10:00, +10:00]
</aside>