<aside>
🛠
질문 TIP!
[4단계 질문 프레임워크]
- 현재 상황 / 하고자 하는 목표
- 현재 어떤 작업을 하고 있고, 무엇을 하고 싶은 지를 간단하게 설명해주세요.
- 시도한 방법 / 현재 진행 상태
- 어떤 방법들을 시도해보았는지 요약해주세요 (참고자료를 같이 가지고 오셔도 좋습니다.)
- 어려운 점 / 막힌 지점
- 무엇이 잘 안되는지, 어떤 부분에서 막혔는지를 명확하게 설명해주세요.
- 문제관련 참고 자료 / 관련 코드
- 관련 코드, 에러메시지, 문제 해결을 위해 참고한 자료 등을 공유해주세요.
</aside>
팀 질문
- SAV 파일을 좀 더 편하게 읽을 수 있는 라이브러리나 다른 리딩 방법이 있는지 궁금합니다!
- 컬럼이 너무 많은데, 의미 있는 컬럼만 가져다 써도 될까요?
- 컬럼 안의 데이터가 많을 때 전부 다 써야 하나요? (5만 개)
- 3-1 : 만 명 중 5천 명만 분석해도 되는지
- 다중 응답형 데이터를 어떻게 처리해야 해야 할까요
멘토님 코멘트
✍️팀 단위의 질의응답 시 팀의 서기가 직접 작성해주세요
- 1번 답변 : SPSS(SAV) 파일은 SPSS 프로그램에서 열고 → CSV 저장하면 가장 쉬움. 파일 변환이 어려우면 멘토에게 요청하면 도와준다고 안내함.
- 2번 답변 : 분석 목적에 맞는 의미 있는 컬럼만 사용하는 것이 적절함. 불필요한 컬럼이 많을 경우 분석에 방해가 될 수 있음.
- 3번 답변 : 5만 개는 Python에서 처리하기에 충분히 감당 가능한 수준임. 많은 데이터는 오히려 분석에 유리할 수 있으며 처리 속도에도 큰 영향을 주지 않음. 다만 전처리 작업은 반드시 필요함.
- 3-1번 답변 : 5천 명만 사용하는 것은 가능하나 명확한 기준이 필요하기에 비추천함. 특별한 이유 없이 데이터를 줄이는 것은 바람직하지 않으며 가능하면 전체 데이터를 활용하는 것이 좋음.
- 4번 답변 : 분석 목적에 따라 다르게 처리할 수 있음. 전체 응답 비율이 필요할 경우 모든 항목을 활용해야 하며 주요 응답만 필요한 경우 일부 항목만 선택할 수 있음. 파생 변수를 생성하거나 필요 없는 경우 제외하는 것도 가능함.
참고
코멘트 이후 시도해볼 Action