프로젝트 개요

Untitled

안녕하세요, 곰파다입니다. 👋

곰파다 : 사물이나 일의 속내를 알려고 자세히 찾아보고 따지다.

곰파다는 학생들의 서술형 답안을 자동으로 채점해 선생님들의 반복적 채점 작업을 효율적으로 줄여주는 프로젝트입니다. 교육기관에서 사용하는 AI 자동 채점 시스템이 기존의 단점(띄어쓰기, 유사어 등을 판별하지 못하는 것)으로 인해 실제로 사용하기 어렵다는 사실을 바탕으로, 단점들을 개선하고 더욱 정밀한 채점 보조 서비스를 만들고자 했습니다.

프로젝트 팀 구성 및 역할

Untitled

김상렬 : Frontend 개발, Backend API 설계, 프로젝트 배포 및 관리

김소연 : Product Manager, 문맥 유사도 채점 모델 구현

김은기 : 모델 엔지니어링, 문맥 유사도 프로토타입 모델 제작, 키워드 모델 제작

박세연 : 데이터 증강, 웹/로고 디자인, 모델-서비스 파이프라인 연결

임수정 : 데이터 수집, 문맥 유사도 예측 모델 평가 데이터셋 제작, SBERT 모델 성능 실험


프로젝트 수행 절차 및 방법

사전조사 단계

  1. 자료 조사

  2. 현업 인터뷰

  3. 관련 선행 연구를 진행하신 교수님들과의 면담

    서술형 채점 관련 선행 연구 및 적용 사례를 찾아보던 중, 한국어 서술형 데이터를 활용하여 채점 보조 프로그램을 만들고자 먼저 시도했었던 선행연구(wai)를 찾을 수 있었습니다. 따라서 연구 책임자인 하민수 교수님과 , 함께 연구를 진행해주신 최성철 교수님을 만나 선행연구의 구체적인 방향과 조언을 들을 수 있었습니다.

    두 교수님과의 면담을 통해 저희는 이전 연구들의 목표와 한계점을 이해할 수 있었고, 선행 연구들의 한계를 보완하고 교육 분야의 특성을 반영하는 것을 목표로 프로젝트 방향을 정할 수 있었습니다.

데이터 준비

  1. 서술형 답안 데이터 수집

    먼저 모델 평가 및 실제 구현 성능 확인을 위한 서술형 문제 및 답안을 수집했습니다. 이 때 정확한 키워드가 존재하고, 옳고 그름이 명확한 초/중학교 사회, 과학 서술형 문제로 범위를 명확히하고 수집을 진행했습니다.

    또한 충분한 데이터 확보를 위해 문제와 문제에 대한 여러가지의 답안이 있는 형태의 데이터는 모두 후보로 두고 다양한 방식으로 수집을 시도했습니다. 후보로 생각했던 데이터 수집 경로는 세가지로, 아래와 같습니다.

    1. 서술형 평가 관련 선행 연구에서 사용되었던 데이터
    1. 네이버 지식인의 중학교 사회, 과학 Q&A 데이터
    2. 초중학교 과학 학원의 실제 서술형 시험 데이터 및 학생 답안

    세 가지 후보 중, 먼저 과학 학원의 서술형 시험 데이터는 대부분 온라인이 아닌 종이에 학생이 직접 필기로 작성한 데이터가 많았고, 이 경우 OCR 과정까지 포함되어 기한 내에 데이터를 정리하기 어려울 것이라 판단했습니다.

    네이버 지식인의 경우 실제로 크롤링을 진행하고 사회, 과학 과목의 질문과 답변들을 모았습니다.그러나 질문이 서술형 문제와 완전히 일치하지는 않았고, 한 문제당 답변의 개수가 적었기 때문에 우선순위에서는 뒤로 밀리게 되었습니다.

    마지막으로 선행 연구 데이터는 저작권 문제와 공개 가능성이 낮았기 때문에 우선 한국 교육 과정 평가원을 포함한 3곳 정도에 컨택을 시도했고, 다행히 한 곳에서 답변을 받을 수 있었습니다.

    수집한 데이터는 “교육부와 한국과학 창의 재단이 지원한 서술형 평가 지원프로그램(연구책임:하민수 교수)” 연구에서 사용되었던 데이터이고, 문제, 학생 답안, 키워드 및 학생 답안 별 키워드 존재여부로 구성되어있습니다. 이러한 문제가 총 64문제, 한 문제당 학생 답안 수는 850~1000개 정도 되었습니다.

    스크린샷 2022-06-12 오후 11.37.32.png

  2. 키워드 채점 Dataset