23 수능 국어 상위 5%에 도달한 인공지능
안녕하세요, 오르비 여러분.
오픈소스 한국어 문서 기반 질의응답 AI 시스템을 탐구하는 프로젝트 팀 NomaDamas입니다.
23 수능 국어에서 상위 5%를 인공지능으로 달성하여 뉴스 기사가 나왔습니다!
수험생시절 오르비에서 도움을 많이 받았던 기억이 나
혹시 저희 프로젝트가 수험생 여러분들께 조금이나마 도움이 될까 싶어 공유합니다!
세 줄 요약
- 기존 3등급(86점, 상위 22%)이던 GPT-4의 수능 국어 성적을, 프롬프트 엔지니어링으로 2등급(94점, 상위 5%)로 향상시켰습니다.
- 문제 유형에 특화된 프롬프트를 사용하면 1등급(96점, 상위4%)까지 달성할 수 있습니다.
- 사용한 프롬프트 전문과 소스코드, 수능 국어 데이터셋을 오픈소스로 공개했습니다.
1. 프롬프트 엔지니어링?
긴 글을 시작하기에 앞서, 많은 분들의 이해를 돕기 위해 저희가 사용한 프롬프트 엔지니어링에 대한 간단히 설명 드리겠습니다.
프롬프트 엔지니어링은 대화형 인공지능 (예: Chat-GPT)에 들어가는 입력 프롬프트를 신중하게 작성하고 개선하여, 원하는 고품질의 응답을 생성하는 과정입니다.
간단히, 어떻게 인공지능에 ‘잘’ 질문 하는지 연구하는 것입니다.
‘수험공부를 하면서 얻은 나름의 노하우들을 프롬프트에 적용하면, 인공지능의 수능 점수가 어디까지 올라갈까?’ 라는 의문이 들었고, 프롬프트 엔지니어링을 통해 적용해 보았습니다.
2. 사용한 프롬프트
어떤 프롬프트를 사용했는지 궁금하시죠?
핵심부터 말씀 드리자면, 지문 속에서 정답과 관련이 있는 문장을 찾도록 한 것입니다.
수험생 시절에 지문에서 ‘1+1=3’ 이라고 한다면 그냥 받아들이고 풀겠다는 마음가짐으로
지문 속에서 근거를 찾는 연습을 하며 기출 문제 분석을 많이 했었는데요,
그 경험을 프롬프트에 반영해 보았습니다.
그 결과 인공지능의 점수가 8점 상승하여 94점이 되었습니다.
지문에서 근거를 찾는 능력의 중요성을 다시 한번 느낄 수 있었고, 수험생분들에게도 공유하고 싶었습니다.
[실제 사용 프롬프트]
위의 프롬프트는 <보기> 가 없는 경우에 사용한 프롬프트 입니다.
저희는 <보기>가 있는 경우와, 없는 경우를 구분하여 프롬프트를 사용하였습니다.
본문이 너무 길어질 것 같아 <보기>가 있을 때 프롬프트는 더 궁금하신 분들이 참고하실 수 있도록
자세한 설명이 있는 링크를 함께 달아두겠습니다 :)
3. 빈출 유형 대응 프롬프트
위의 프롬프트로는 13번, 15번, 40번 문제를 제외하고 모두 풀 수 있었습니다.
GPT-4가 ‘동음이의어’, ‘다의어’ 관련 문제를 못 푸는 것을 확인했습니다.
이에 수험생들이 기출문제로 문제 해결의 방향을 잡는 것처럼,
인공지능에게도 문제를 푸는 방법을 알려주는 13번 문제 맞춤 프롬프트를 제작하기로 했습니다.
[실제 사용한 13번 전용 프롬프트]
(프롬프트에 사용된 표현이 정확한 표현인지는 잘 모르겠습니다..)
제가 이 문제를 실제 시험장에서 만났다면 다음 프롬프트와 같이 행동했을 것이라고 생각하고 작성해보았는데요,
저의 수험생활경험으로 만들어진, 13번 유형의 문제들만 해결할 수 있는 맞춤형 프롬프트 입니다.
오직 ‘지문 속 근거가 된 문장’만으로는 인공지능이 해결하기 어렵다고 판단하여 맞춤형 프롬프트를 제작하였고,
그리하여 13번 문제까지 정답을 맞춰 96점, 1등급에 도달할 수 있었습니다.
하지만 이 프롬프트는 같은 유형의 문제가 나왔을 때에만 재사용 가능한 프롬프트라는 점에 있어서,
완벽한 1등급에는 도달하지 못했습니다.
오지랖일지는 모르겠지만,,,
그래도 인공지능처럼 많은 수험생분들이 시험장에서 만나게 될 다양한 예상 문제들에 대해 나름의 ‘행동 매뉴얼’을 만들어 시험장에 들어가시면,
훨씬 빠르고 정확하게 문제를 해결할 수 있다는 것을 증명한 사례라고 생각하여 가져와 보았습니다 :)
4. 실제 예시
- 17번 문제 (오답률 84.9%)
17번 문제
인공지능 답변
EBS 해설
5. 오답 풀이
23 수능 국어(화법과 작문)에서 15번(비문학)과 40번(화법과 작문) 문제를 GPT-4가 풀지 못했습니다.
왜 오답을 뱉어냈는지 나름대로 설명 해보는 섹션입니다.
- 15번
- 15번 문제의 핵심은 지문으로부터 '100^0.75'와 '1^0.75'를 유도해 무엇이 더 큰지를 구해야 합니다. 이는 GPT-4의 수학 능력 부족으로 두 숫자 중 더 큰 수 찾기를 힘들어 합니다.
- 또한, 지문만 보고 해당 식을 유도하는 것 조차도 힘들어 합니다. 수학적 수식을 이해하고 그것을 선택지에 응용하는 능력이 떨어지기 때문입니다.
- 비슷한 문제로, 문제의 19년도 수능 31번 문제도 '만유인력 공식'을 이해하고 활용해야 풀 수 있는데, 해당 문제 역시 GPT-4는 못 풀었습니다.
- 40번
- 40번에서는 학생 1과 학생 3 '모두' 상대의 발화 내용을 잘못 이해했는지 파악하는 것이 핵심입니다.
- 실제로 해당 부분에서 학생 1은 상대의 발화 내용을 잘못 이해하고 있으나, 학생 3은 그렇지 않습니다.
- 그래서 3번 선지를 정답으로 골랐어야 했지만,
GPT-4는 학생 1이 상대의 발화를 잘못 이해했다고 잘 파악하였으나,
학생 3은 상대의 발화 내용을 이해하고 있다고 파악하여 오답을 고르게 되었습니다. - 비교적 수험생분들에게는 익숙할 수 있는 평가원의 함정 입니다만, 아직 평가원의 함정을 수월하게 빠져나가지 못하는 인공지능입니다
0 XDK (+0)
유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.
-
무잔이다!! 2
녀석은 목을 베어도 죽지 않아!!
-
흐아으... 7천보 걷고 5천보 정도 뛰는데 땀범벅 되어서 일나는줄... 끄엥...
-
상승세 보니까 9월쯤 되면 추월당할것 같다 발상노트 점검하느라 질문 못받는다
-
영어 숙어 0
영어 숙어표현 아예 모른다 싶은정도인데 따로 단어장 외우는게 좋을까요? 기본 단어...
-
국영수가 너무 취약해서 과탐에 시간을 많이 못 쏟을거같다는 생각이 계속 들어요...
-
강대 수학 1
강대K랑 강대X랑 같은 모고인건가요?
-
사설 실모 미적분 뒤지게 어려워서 울고싶네 진짜
-
국어56 수학80 영어95 사문35 생윤36 대단하네요 ㄷㄷ
-
어디가 더 높은가요?
-
ㄹㅇ 대대대
-
세제를 많이넣어야야무짐
-
평가원이 최상위권 변별하려고 많이 쓰는 방식이 언매or 미적분 ㅈㄴ 어렵게 내서...
-
수원지검, '쯔양 공갈' 혐의 구제역 압수수색…사건 이송 사흘만 1
(수원=연합뉴스) 이영주 기자 = 검찰이 1천만명이 넘는 구독자를 보유한 먹방...
-
증명하시잖하 다들 n-1제 풀도록
-
옯밍아웃 당할까 봐 못사겠어요
-
수학 왜 자꾸 병신짓해서 다풀고 마무리 못해서 틀리지 0
이거 실력인거 같은데 양치기만이 답인가... 문제 다풀어놓고 마무리 못해서 틀리네
-
국어 : 피드백2문기정2 수학 : 문해전12미적각각5문제씩 영어 : 네츄럴프리덤1...
-
뒤늦게 푼 7모 8
매체만 안틀렸어도 1인데... 수학은 내 존재의의가 사라진 느낌
-
드릴이나 설맞이 난이도ㅇㅇ
-
헬스터디 서바이벌 총 9명 중에 한명은 빛을 발하는구나 0
완전 노베인 상태에서 반년만에 확통 80 영어 95 는 진짜 ㅅㅂ ㅈㄴ 멋있네 나...
-
Msi때부터 자꾸 쳐던지는데 피어엑스에 지는건 진짜 뭐하자는거지 나이 많으니...
-
이로운 모의고사 0
이로운 모고 시즌1 2회 76 나왔는데 수능 기준 2 안뜨려나요 이거………. (미적분)
-
아직은 공부 다 못끝내는 것보다는 새벽공부가 낫겠죠? 6
9월 이후로 가면 몇문제 더푸는것보다 수면패턴 유지가 더 중요할수도 있겠지만 아직...
-
지금 3등급인데 기출을 다시 볼려고 해서 일단 진또배기코를 빨리 끝내고 사설 벅벅...
-
제발ㄹ요. ㅠ
-
7월중반에 들리는 찌라시가 의대 모집중지 일 수도 있다는게 ㄹㅇ 돌아버리겠네....
-
밥먹으려고 집왔는데밥먹고 4시간 자버림 하ㅠㅆㅂㅆㅂㅅㅂㅅㅂㅅㅂㅅㅂㅅㅂㅅㅂㅅㅂㅅㅂㅅㅂ
-
95점 미쳤네 걍
-
작수 언미화생 원점수 95 80 1등급 48 46 지금부터 달려도 승산 있을까요...
-
어떡하지
-
작수 81점 6모 81점.. 컨디션 안조으면 실모는 70점대 컨디션 조으면...
-
아무리 찾아봐도 안보이네..
-
진짜 인생에 빠르고 느리고가 없는 듯... 5수할 때만 해도 남들보다 한참은...
-
우울해
-
수능 성적만 놓고 봤을 때 ㅇㄷ 갈 거임?
-
이유 듣고싶진않고 다음날에 누가됐든 뉴스나오자. 의대꼬라지보니까 공부할맘 싹사라지고...
-
하반기 전공의 모집에 의료계 반발…하반기 모집 7천707명 신청(종합) 2
전공의 7천648명 사직처리, 전체의 56.5% 그만둬…빅5 병원 전공의 92%...
-
엔수의신에 트리플에스 나올 때만 해도 이게 된다고?였는데 키오프 아이브 에스파...
-
잉잉ㅠㅠ저능TP였구나
-
이렇게 불안하게 만드는데 아직도 윤석열이 옳다는 수험생은 그냥 개패고싶네 ㅋㅋㅋ
-
Yesterday, all my troubles seemed so far away 2
Now it looks as though they're here to stay
-
수능 영어 과외를 맡게 되었는데 시중교재중 해석을 위한 어법 한권 수능보다 조금...
-
안녕하세요 전닉이 이세계 재수생이었던 뻘글러 옯창입니다 사실 전 올해 오르비를 처음...
-
옯비포터 시리즈 5
그리핀도르의 댕리 포터! 근데 치마를 입은! 슬리데린의 드레이코 말오리! 근데...
-
댠디킴 그릿들었는데 인문하고 과학이 부족한것 같아서 민철게이 피드백 인문 과학...
-
의대 올해 만약 진짜 모집정지나 인원 줄어들면 그냥 쌩재수 할거임? ㄴㄴ 어디라도...
-
https://orbi.kr/00038429389
-
어쨌든 달성했으니 인제 옯창 빙고에 동그라미 하나 추가군...
-
케이크를 와앙 4
뇸뇬뇸
우와… 너무 신기해요…
휴 ai 이겼다
이건 제작자가 천재다