23 수능 국어 상위 5%에 도달한 인공지능
안녕하세요, 오르비 여러분.
오픈소스 한국어 문서 기반 질의응답 AI 시스템을 탐구하는 프로젝트 팀 NomaDamas입니다.
23 수능 국어에서 상위 5%를 인공지능으로 달성하여 뉴스 기사가 나왔습니다!
수험생시절 오르비에서 도움을 많이 받았던 기억이 나
혹시 저희 프로젝트가 수험생 여러분들께 조금이나마 도움이 될까 싶어 공유합니다!
세 줄 요약
- 기존 3등급(86점, 상위 22%)이던 GPT-4의 수능 국어 성적을, 프롬프트 엔지니어링으로 2등급(94점, 상위 5%)로 향상시켰습니다.
- 문제 유형에 특화된 프롬프트를 사용하면 1등급(96점, 상위4%)까지 달성할 수 있습니다.
- 사용한 프롬프트 전문과 소스코드, 수능 국어 데이터셋을 오픈소스로 공개했습니다.
1. 프롬프트 엔지니어링?
긴 글을 시작하기에 앞서, 많은 분들의 이해를 돕기 위해 저희가 사용한 프롬프트 엔지니어링에 대한 간단히 설명 드리겠습니다.
프롬프트 엔지니어링은 대화형 인공지능 (예: Chat-GPT)에 들어가는 입력 프롬프트를 신중하게 작성하고 개선하여, 원하는 고품질의 응답을 생성하는 과정입니다.
간단히, 어떻게 인공지능에 ‘잘’ 질문 하는지 연구하는 것입니다.
‘수험공부를 하면서 얻은 나름의 노하우들을 프롬프트에 적용하면, 인공지능의 수능 점수가 어디까지 올라갈까?’ 라는 의문이 들었고, 프롬프트 엔지니어링을 통해 적용해 보았습니다.
2. 사용한 프롬프트
어떤 프롬프트를 사용했는지 궁금하시죠?
핵심부터 말씀 드리자면, 지문 속에서 정답과 관련이 있는 문장을 찾도록 한 것입니다.
수험생 시절에 지문에서 ‘1+1=3’ 이라고 한다면 그냥 받아들이고 풀겠다는 마음가짐으로
지문 속에서 근거를 찾는 연습을 하며 기출 문제 분석을 많이 했었는데요,
그 경험을 프롬프트에 반영해 보았습니다.
그 결과 인공지능의 점수가 8점 상승하여 94점이 되었습니다.
지문에서 근거를 찾는 능력의 중요성을 다시 한번 느낄 수 있었고, 수험생분들에게도 공유하고 싶었습니다.
[실제 사용 프롬프트]
위의 프롬프트는 <보기> 가 없는 경우에 사용한 프롬프트 입니다.
저희는 <보기>가 있는 경우와, 없는 경우를 구분하여 프롬프트를 사용하였습니다.
본문이 너무 길어질 것 같아 <보기>가 있을 때 프롬프트는 더 궁금하신 분들이 참고하실 수 있도록
자세한 설명이 있는 링크를 함께 달아두겠습니다 :)
3. 빈출 유형 대응 프롬프트
위의 프롬프트로는 13번, 15번, 40번 문제를 제외하고 모두 풀 수 있었습니다.
GPT-4가 ‘동음이의어’, ‘다의어’ 관련 문제를 못 푸는 것을 확인했습니다.
이에 수험생들이 기출문제로 문제 해결의 방향을 잡는 것처럼,
인공지능에게도 문제를 푸는 방법을 알려주는 13번 문제 맞춤 프롬프트를 제작하기로 했습니다.
[실제 사용한 13번 전용 프롬프트]
(프롬프트에 사용된 표현이 정확한 표현인지는 잘 모르겠습니다..)
제가 이 문제를 실제 시험장에서 만났다면 다음 프롬프트와 같이 행동했을 것이라고 생각하고 작성해보았는데요,
저의 수험생활경험으로 만들어진, 13번 유형의 문제들만 해결할 수 있는 맞춤형 프롬프트 입니다.
오직 ‘지문 속 근거가 된 문장’만으로는 인공지능이 해결하기 어렵다고 판단하여 맞춤형 프롬프트를 제작하였고,
그리하여 13번 문제까지 정답을 맞춰 96점, 1등급에 도달할 수 있었습니다.
하지만 이 프롬프트는 같은 유형의 문제가 나왔을 때에만 재사용 가능한 프롬프트라는 점에 있어서,
완벽한 1등급에는 도달하지 못했습니다.
오지랖일지는 모르겠지만,,,
그래도 인공지능처럼 많은 수험생분들이 시험장에서 만나게 될 다양한 예상 문제들에 대해 나름의 ‘행동 매뉴얼’을 만들어 시험장에 들어가시면,
훨씬 빠르고 정확하게 문제를 해결할 수 있다는 것을 증명한 사례라고 생각하여 가져와 보았습니다 :)
4. 실제 예시
- 17번 문제 (오답률 84.9%)
5. 오답 풀이
23 수능 국어(화법과 작문)에서 15번(비문학)과 40번(화법과 작문) 문제를 GPT-4가 풀지 못했습니다.
왜 오답을 뱉어냈는지 나름대로 설명 해보는 섹션입니다.
- 15번
- 15번 문제의 핵심은 지문으로부터 '100^0.75'와 '1^0.75'를 유도해 무엇이 더 큰지를 구해야 합니다. 이는 GPT-4의 수학 능력 부족으로 두 숫자 중 더 큰 수 찾기를 힘들어 합니다.
- 또한, 지문만 보고 해당 식을 유도하는 것 조차도 힘들어 합니다. 수학적 수식을 이해하고 그것을 선택지에 응용하는 능력이 떨어지기 때문입니다.
- 비슷한 문제로, 문제의 19년도 수능 31번 문제도 '만유인력 공식'을 이해하고 활용해야 풀 수 있는데, 해당 문제 역시 GPT-4는 못 풀었습니다.
- 40번
- 40번에서는 학생 1과 학생 3 '모두' 상대의 발화 내용을 잘못 이해했는지 파악하는 것이 핵심입니다.
- 실제로 해당 부분에서 학생 1은 상대의 발화 내용을 잘못 이해하고 있으나, 학생 3은 그렇지 않습니다.
- 그래서 3번 선지를 정답으로 골랐어야 했지만,
GPT-4는 학생 1이 상대의 발화를 잘못 이해했다고 잘 파악하였으나,
학생 3은 상대의 발화 내용을 이해하고 있다고 파악하여 오답을 고르게 되었습니다. - 비교적 수험생분들에게는 익숙할 수 있는 평가원의 함정 입니다만, 아직 평가원의 함정을 수월하게 빠져나가지 못하는 인공지능입니다
0 XDK (+0)
유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.
-
얼버기 0
오늘도 화이띵
-
상식적으로 탐구 20점 수학 63에서 국어 72에서 1~2등급으로 상승이 가...능함...?
-
그래서 이 말 남기고 오늘은 이만… 얼버기!!!! 오늘 만약 제가 오르비에 또...
-
보통 웬만한 실모 80점대 이상 찍는데 69점 나왔… 근데 우진이가 킬캠 회차중에...
-
고등학생때 메디컬만 바라봤는데 재수하면서 주제 파악하고 올해 연대옴 근데 우리과에서...
-
1. 예쁘고 빠르다. 2. 존나 무겁다. 3. 생각보다 카메라 버튼이 유용하지않다.
-
D-47 0
이제부턴 10시 이후에도 1시까지 스카가서 공부할거임 두고봐 매일 인증할테니까
-
안자는 사람 2
있나
-
있음? 아니면 그에 준하는 정도라도 (강k17회차 많이 얘기하던데
-
랭 돌리는중 ㅁㅌㅊ?
-
73 떴는데 3인가요
-
배고프다 14
쥐엔쟝
-
참고로 수학 3임
-
대치갈일 있어서 추천부탁드려요 ㅅㅅ
-
숨이 턱턱막히네 80점 15 21 22 28 29 11번 오른쪽부터 a b 조건...
-
내가 당첨안되었으니 주작임.
-
재수의 무서운점 3
재수를 하면서 느낀점이 일단 사람이 부정적으로 변해요 원래는 학창시절에 매일웃고...
-
평소에 원점수 96 100 나오는 분들이겠죠.. 존경합니다 그냥..
-
택시 3만원으로 모고 보러 가는 게 의미가 잇을까요 7
낼 송파 메가로 수모의고사 보러 가는데 택시비가 3만원이거든요 이 돈으로 그냥...
-
빌드업+기어시 2회독 드리블 진도(의외로 금방함) 하프타임 모의고사 수특 10월...
-
일과 끝내고 침대에 누워서 오르비 킬 때
-
협곡에서도 이거 반만하면 되는데…
-
문해전 2회독 후에 드릴5 수2 미분 유기한거 끝내고 바로 설맞이 들어가면...
-
한지-이기상쌤 이만복(이것이 만점 복습노트다) 그냥 통암기하고 위치다 하면 일단 2는 뜰까요?
-
이 문제가 기출학습 열심히 했으면 쉽게 풀리는 문제라고들하지만 ebs기준 정답률...
-
제발공부해 제발 0
시험끝나고놀아도돼 제발 제발공부해줘 제발
-
시간이 빠르구나
-
적도 용승은 항시적으로 일어나나요? 연안 용승같은건 풍향에 따라 달라지는 걸로 알고...
-
과탐 몇점씩 나와야 인설의 가능함? 47 44까진 되려나
-
잠에 들려다 무서워서 깼는데 갑자기 귀에서 환청 들리고(이거 소리가 점점 커지는데...
-
ㅋ
-
퀄리티 자체나 시험지 분위기가 대체로 교육청이 수능이랑 더 유사한가요?
-
국어 공부방향 1
수능때 적어도 2등급은 받고싶은데 시간이 너무 모자라요 ㅠ 일단 독서론 포함 비문학...
-
Yes~?? Whatever TV~???♂️ That TV~???♀️ Anmul...
-
남자들 책임도 없다고는 할 수 없다 남자들도 단합 좀 해야됨 스윗남들과 별개로...
-
어떤 편이었나여?? 작년 수능보다 어려운건 아니앗죠??
-
방금 컴퓨터 끄려고 했는데 거의 손가락 절반 정도 되는 모기가 내 눈앞을 지나감 밤새워야지
-
토탈리콜이랑 실모랑 병행할 수능 전에 마지막으로 다 풀고 갈 마무리 n제 추천...
-
아 2
A
-
수2<~joat 7
ㄹㅇ개노잼과목
-
김승리라는 이름도 흔치않은데 국어 가르치는것도 신기하네 오히려 저분이 먼저 시작하셨을라나ㅋㅋ
-
외롭네요 1
고3 현역인데 일반고다녀서 그런지 그래도 나아가겠습니다
-
투표해주시면 감사하겠씁니다
-
서강대 축제 끗 2
재밌었다
-
와 그래도 많이 발전했구나 나... 좀만 더해보자
-
수직주내용이 쉬4맞는게 목표인사람한테도 도움이 될까요
-
물론 수업마다 다르겠지만 딴거푸는사람, 자는사람, 폰보는 사람들 좀 있어요?
-
24 6평 88..? 24 9평 79 24 수능 2 (가채점표 못 썼어요) 25...
-
문학에서 시간좀 넘치긴했는데 기분은 좋네요 찰떡이와 뾰죡이<<별기대 안했는데 의외로 도움됨
우와… 너무 신기해요…
휴 ai 이겼다
이건 제작자가 천재다