1. Motivation

 

연구 주제로서의 Motivation

 

일상에서의 LLM(Large Language Model)은 주로 질문에 답을 제시하거나 주어진 데이터를 요야가는 데 활용됩니다. 이번 연구에서는 이러한 보편적인 역할에서 벗어나, 직접 문제를 출제하는 역할로서의 LLM을 탐구했습니다. 문제를 출제하기 위해서는 단순히 정보를 재구성하는 데 그치지 않고, 내용을 철저히 파악하고 분석하여 핵심 요점을 질문 형태로 제시해야합니다. 저희는 이러한 높은 수준의 추론 능력을 요하는 작업을 한국의 수능 국어 비문학 문제 출제에 적용하고자 합니다. 과연 LLM이 수능 국어 시험에 대해 제대로된 이해를 가지고 알맞은 지문과 문제를 만들 수 있을까요?

 

일련의 과정을 거쳐 LLM이 만든 지문과 문제를 얻었다고 합시다. 이렇게 갓 만들어진 지문과 문제의 수준은 아무도 보장할 수 없고, 그 신뢰성 역시 의문점입니다. 즉 LLM이 만든 지문과 문제는 그 퀄리티를 평가 받아야 합니다. 그런데 거대한 언어 모델이 생성한 답안을 평가한다는 것. 단순하지만은 않을 것 같은데, 어떤 방식으로 평가가 이루어져야 할까요?

 

 

 

서비스 주제로서의 Motivation

 

LLM을 활용하면 사용자의 요구와 수준에 맞춘 맞춤형 교육 자료를 생성할 수 있습니다. 기존의 문제집이나 모의고사와 같은 교육 자료는 분량이 한정적이기 때문에 학생들의 취약점 분석이나 새로운 문제에 대한 훈련에 한계가 있습니다. 또한, 사설 모의고사나 시중에 판매되는 문제집으로 공부하는 경우 모두 구매해야 하기 때문에 경제적인 부담이 발생합니다. 따라서, 학생들이 저렴한 가격 혹은 무료로 LLM이 생성한 다양한 문제를 풀어보며 효과적으로 국어 실력을 향상할 수 있기를 기대합니다.

 

 

 

세부 목표

1) 지문 및 문제 생성 프롬프트 엔지니어링

  • 지문 및 문제가 출제 메뉴얼을 따르며 생성되도록 설계
  • 지문 내 주요 포인트를 파악하고, 이를 바탕으로 적절한 난이도의 문제를 설계
  • RAG를 활용하여 주제에 맞는 실제 수능 출제 지문을 예시로 제공, LLM이 수능 지문의 형식과 내용을 학습해 지문 생성에 반영하도록 설계
  • CoTFew-Shot 접근법을 비교하여 지문/문제 생성에 있어 최적의 방법 알아내기
    • CoT 방식에서는 주제 설정, 구조 설계, 내용 작성을 단계적으로 진행하여 지문 생성
    • Few-Shot 방식에서는 수능 출제 지문을 제공하여 간결한 프롬프트로 생성된 결과 비교
  • 평가 결과에서 얻은 보완점을 바탕으로 LLM이 지문과 문제를 재생성하도록 프롬프트 설계

2) LLM-as-a-Judge를 통한 지문 및 문제 평가

  • 학습자 수준 적합성 평가: 생성된 지문이 학습자의 수준(고등학생 기준)에 적합한지 판단
  • 출제 매뉴얼 기준 점검: 출제 매뉴얼 및 난이도 지침에 따른 적합성을 평가
  • 어휘 적합성: 지문에서 사용된 어휘가 학습자의 이해 수준에 맞고 풍부한지 평가
  • 문제 난이도 적합성: 생성된 문제가 학습자의 수준과 학습 목표에 부합하는지 판단
  • 문항 구조 및 매력도: 오답 선택지의 매력도와 정답의 명확성을 평가
  • 출제 지침 준수: 출제 매뉴얼과 문제 설계 지침의 준수 여부 확인
  • 문제와 지문의 논리적 연계성 확인: 문제가 지문 내용을 바탕으로 적절히 출제되었는지 평가

 

 

 

목표에 대한 부연 설명

 

ChatGPT-o1 모델을 사용해 지문과 문제 생성 실험을 진행한 결과, o1 모델은 완성도 있는 지문과 문제를 만들어냈습니다. 하지만 o1 모델은 사용하는데 가격이 비싸고, 이미 많은 장점이 있기 때문에 저희 팀의 목표인 "LLM을 공부하고, 여러 방법론을 도입해 최고의 성능을 끌어내자"와는 맞지 않습니다. 그래서 저희는 하위 모델을 사용하기로 했습니다. 하위 모델은 성능이 약간 떨어지지만, 가격이 저렴합니다. 만약 하위 모델을 통해 수능 국어 비문학 지문 및 문제 생성 프로젝트를 성공적으로 구현한다면, 경제성을 확보함을 물론이고 태스크의 확장성(추가 기능 도입, 기능 고도화 등)도 고려해볼 수 있게 됩니다.

 

결론을 요약하자면, 이 프로젝트를 통해 지문, 문제 생성 및 평가라는 연구적 목표와 교육 컨텐츠 개발이라는 실용적 목표를 동시에 달성하고자 합니다.

 


 

2. Background

 

RAG

 

RAG(Retriever-Augmented Generation)는 언어 모델의 성능을 향상시키는 강력한 기술로, 외부 데이터 소스에서 실시간으로 정보를 가져와 모델의 입력에 통합합니다. 이 방식은 모델의 정확성을 높이고, 최신 정보를 반영하기 쉬우며, LLM의 환각(Hallucination) 현상을 줄이는 데 기여합니다. 또한, RAG는 특정 도메인에 특화된 외부 데이터베이스를 활용하여 더 정확하고 심도 있는 응답을 생성할 수 있으며, 모델을 재학습시키지 않고도 새로운 정보를 쉽게 추가할 수 있는 확장성과 유연성을 제공합니다.

 

RAG의 이점은 다양한 분야에 활용될 수 있습니다. 고객 서비스에서는 최신 제품 정보와 FAQ를 통합한 챗봇 시스템을 구축할 수 있고, 법률 및 의료 분야에서는 최신 판례나 연구 결과를 반영한 전문적인 조언을 제공할 수 있습니다. 교육 분야에서도 학습자의 수준과 최신 교육 자료를 고려한 개인화된 학습 경험을 제공할 수 있습니다. 이러한 특성으로 인해 RAG는 비용 효율적이며 투명성과 설명 가능성을 높이는 데 기여합니다. 그러나 RAG가 완벽한 해결책은 아닙니다. 데이터 품질, 맥락 이해능력, 내부 추론 과정 등에 따라 여전히 환각 현상이 발생할 수 있습니다. 따라서 RAG를 사용하더라도 지속적인 모니터링이 필요합니다.

 

2024.12.25 - [[Deep daiv.]/[Deep daiv.] NLP] - [Deep daiv.] NLP, 논문 리뷰 - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

 

[Deep daiv.] NLP, 논문 리뷰 - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

https://arxiv.org/abs/2005.11401 Retrieval-Augmented Generation for Knowledge-Intensive NLP TasksLarge pre-trained language models have been shown to store factual knowledge in their parameters, and achieve state-of-the-art results when fine-tuned on down

hw-hk.tistory.com

 

 

 

LLM-as-a-Judge

 

LLM-as-a-Judge는 거대 언어 모델(Large Language Model, LLM)을 활용해 다른 LLM의 성능을 평가하는 방법을 말합니다. 이는 인간 평가자가 직접 평가하는 방식을 대체하는 접근법입니다. 인간이 직접 거대 언어 모델의 성능을 평가하는 것이 이상적이지만, 인간 평가에는 많은 시간과 비용이 소요된다는 한계가 있습니다. 인간 평가자 대신 LLM을 활용하면, 인간의 추론 과정을 모방하는 LLM의 능력을 바탕으로 평가 과정을 자동화하는 동시에 인간과 비슷한 평가 결과를 도출할 수 있습니다. 또한, 인간 평가자를 활용하는 방법은 비용이 너무 비싸다는 단점이 존재합니다. 즉, LLM-as-a-Judge는 자동화된 평가 과정을 통해 인간 평가와 일치하는 결과를 얻고자 하는 것을 목표로 하는 효율적인 평가 방법입니다.

 

LLM-as-a-Judee의 한계점: 편향(Bias)

 

LLM-as-a-Judge에도 여러 한계점이 존재합니다. 그 중 하나는, 편향으로 인한 신뢰도 하락의 문제입니다. 대표적인 편향의 예로는, 프롬프트의 특정 위치에 등장하는 응답을 선호하는 위치 편향(Position Bias), 길이가 긴 응답을 더 선호하는 길이 편향(Length Bias), 스스로 생성한 응답을 선호하는 자기 선호 편향(Self-Enhancement Bias)이 있습니다. 이와 같이 LLM은 응답 내용과는 무관하게 특정 응답을 선호하는 편향성을 보이기 때문에 LLM 평가 결과를 온전히 신뢰하기는 어렵습니다. 현재까지, 편향 해소와 평가 결과의 신뢰도와 공정성 확보는 LLM-as-a-Judge의 주요 해결 과제이자 연구 대상입니다.

 

2025.01.13 - [[Deep daiv.]/[Deep daiv.] NLP] - [Deep daiv.] NLP, 논문 리뷰 - A Survey on LLM-as-a-Judge

 

[Deep daiv.] NLP, 논문 리뷰 - A Survey on LLM-as-a-Judge

https://arxiv.org/abs/2411.15594 A Survey on LLM-as-a-JudgeAccurate and consistent evaluation is crucial for decision-making across numerous fields, yet it remains a challenging task due to inherent subjectivity, variability, and scale. Large Language Mod

hw-hk.tistory.com

2025.01.15 - [[Deep daiv.]/[Deep daiv.] NLP] - [Deep daiv.] NLP, 논문 리뷰 - A Survey on LLM-as-a-Judge (2)

 

[Deep daiv.] NLP, 논문 리뷰 - A Survey on LLM-as-a-Judge (2)

2025.01.13 - [[Deep daiv.]/[Deep daiv.] NLP] - [Deep daiv.] NLP, 논문 리뷰 - A Survey on LLM-as-a-Judge [Deep daiv.] NLP, 논문 리뷰 - A Survey on LLM-as-a-Judgehttps://arxiv.org/abs/2411.15594 A Survey on LLM-as-a-JudgeAccurate and consistent eva

hw-hk.tistory.com

 


 

3. Methodology

 

사용 모델

 

모든 단계에서 GPT-4o-mini 모델을 사용했습니다. ChatGPT-o1은 해당 프로젝트를 수행하는 것이 의미가 없을 정도로 해당 태스크를 훌륭히 소화했기 때문에, 이보다 하위 모델을 선택했습니다. 하지만 GPT-3.5-turbo-16k나 LG의 EXAONE-3.5는 해당 태스크를 수행하기에 너무 성능이 부족했습니다. 따라서 저희는 이들의 중간에 위치한 GPT-4o-mini를 선택했습니다. GPT-4o-mini는 GPT-3.5-turbo-16k 보다 더 싼 API비용을 갖고 있으면서도 성능은 이보다 좋기 때문에, 해당 태스크에 사용하기 적절했습니다.

 

파이프라인

 

프로젝트는 크게 입력, 생성평가, 출력의 네 단계로 이루어집니다.

Figure 1. LLM-as-a-Judge를 이용한 수능 문제 출제 및 평가 프로젝트 파이프라인

 

1) 입력

 

사용자가 풀고 싶은 지문의 주제를 입력합니다.

 

 

 

2) RAG를 활용한 주제 맞춤형 지문 추출

 

RAG를 활용해 주제 맞춤형 지문을 프롬프트에 입력합니다. 지문 생성 시 활용하기 위해 x년도부터 x년도까지의 총 x개의 실제 수능 기출 지문/문제 쌍 데이터베이스를 구축했습니다. RAG를 활용해 데이터베이스에서 사용자가 입력한 주제와 가장 유사도가 높은 수능 지문 1개를 찾아 지문 생성 프롬프트에 One-Shot 예시로 넣어줍니다. 주제와 관련있는 실제 수능 출제 지문을 예시로 넣어줌으로써 LLM이 실제 수능 지문을 참고해 스스로 지문을 생성하도록 합니다.

 

 

 

RAG: Dense Vector?

 

Dense Vector를 활용해서 RAG를 구현하려면 임베딩 하려는 문서를 Chunking해야합니다. 일반적으로 RAG에서 사용하는 임베딩 모델의 Context Length는 512입니다. 따라서 문서의 길이가 512토큰 정도를 넘어간다면, 400~500토큰 길이의 Chunk들로 문서를 잘라서 임베딩해야 합니다. Context Length가 512보다 더 긴 모델을 사용할 수도 있지만, 그렇게 되면 많은 양의 정보를 하나의 Vector에 압축하는 것이기 때문에 정보의 손실이 클 수 있습니다.

 

Figure 2. 수집한 수능 지문의 토큰 길이 통계 자료

 

한편, 수집한 수능 지문의 평균 토큰 길이는 3000토큰정도입니다. 즉, Chunking을 해야합니다. 하지만 Chunking을 해서 수능 지문을 임베딩한다면 추후 생성단계에서 해당 지문을 One-Shot으로 넣어줄 때 어려움이 있습니다. 결과적으로 해당 태스크에서는 Dense Vector를 활용해 RAG를 구현하기는 힘들어보입니다.

 

 

 

RAG: Sparse Vector, BM25

 

BM25는 Sparse Vector를 이용하는 검색기들 중 가장 많이 사용되는 검색기입니다. BM25는 TF-IDF 계열의 검색 알고리즘 중에 SOTA인 것으로 알려져 있습니다.

 

 

 

관련 단어 증강: Sparse Vector의 한계 극복

 

BM25를 활용하여 검색을 수행했을 때, 다음과 같은 문제점이 발생했습니다:

Figure 3. BM25를 활용했을 때, RAG의 실제 예시. 사용자는 인공지능과 관련된 지문을 만들어달라 했지만, 사람의 지문과 관련된 지문을 추출한 모습이다.

 

사용자는 인공지능과 관련된 지문을 생성해달라 요청했지만, RAG를 통해 추출된 수능 기출 지문의 주제는 사람의 지문과 관련된 것이었습니다. 이는 사용자 입력의 맥락을 파악하지 못해서 발생하는 문제입니다. Dense Vector를 활용해서 RAG를 구현했다면 사용자의 입력을 Dense Vector로 압축하여 맥락을 파악할 수 있었겠지만, BM25를 사용했기 때문에 사용자가 중요하게 여기는 단어와 중요하게 생각하지 않는 단어의 가중치가 같을 수 있습니다.

 

Figure 4. LLM을 통한 사용자 입력 증강

 

이는 사용자가 중요하게 여기는 단어의 빈도수를 늘려준다면 이를 해결할 수 있습니다. 그래서 저희는 LLM을 사용합니다. LLM을 통해 사용자가 생성하고자 하는 주제와 관련된 단어를 추가로 생성합니다. 이는 주제와 관련된 단어의 빈도수를 늘려주고, 상대적으로 주제와 관련되지 않은 단어의 빈도수는 줄여주는 기능을 합니다. 이렇게 증강된 입력을 통해 RAG를 수행하면 위 Figure 4.와 같은 결과에 도달합니다.

 

관련 단어 증강: 검색의 정확도 향상

 

외부 문서에는 정말 다양한 정보가 들어있는 반면, 검색하는 쿼리의 정보가 단순하다면, 검색기가 가져오는 문서들은 신뢰할 수 있을까요? 예를 들어 외부 문서에는 형법, 민법, 헌법, 상법 등의 정말 다양한 법에 관한 주제를 갖는 문서들이 있지만, 사용자 입력 쿼리에는 법이라는 단어 하나만 들어있다면, 과연 어느 문서를 검색해야할까요? 검색해오는 문서를 신뢰할 수 있을까요? 이를 해결하기 위해서도 사용자 입력 쿼리를 더 정확하고 많은 양의 정보를 담도록 편집해야합니다. 수능 기출 지문의 특성상 비슷한 주제의 지문이 반복적으로 자주 출제되지 않기 때문에 해당 문제는 발생하지 않았습니다만, 추후 외부 지문의 다양성이 늘어나고, 비슷한 주제의 지문이 많아진다면 언젠가 생길 수 있는 문제였습니다.

 

 

 

3) 생성 및 평가

 

사용자가 입력한 주제를 바탕으로 지문과 문제를 생성하고 평가합니다. 먼저, 지문을 생성, 평가, 수정한 후, 수정된 지문을 기반으로 문제를 생성, 평가, 수정합니다.

 

 

 

지문 생성 Instruction 및 Prompt 구성

 

Instruction에는 실제 수능 지문 출제 매뉴얼을 넣어 수능 지문의 특성, 수능 출제 의도, 지양해야 할 내용을 이해하도록 합니다. Prompt에는 RAG로 추출한, 사용자 입력 주제와 유사한 실제 수능 지문을 One-Shot 예시로 넣어 One-Shot Prompt로 구성합니다. 완성된 Prompt를 LLM에 입력하고, LLM이 Prompt에 따라 1500자 내외의 수능 지문을 생성합니다. 지문 생성 Instruction은 Appendix B를 참조하면 됩니다.

 

 

 

문제 생성 Instruction 및 Prompt 구성

 

문제 생성 Instruction은 지문 생성 Instruction과 동일하게 실제 수능 문제 출제 매뉴얼을 넣어 수능 문제의 유형, 문항/정답지/오답지를 생성할 때 참고할 사항을 이해하도록 합니다. Prompt에는 지문을 참고해 문제를 만들도록 생성, 평가, 재생성 단계를 거쳐 LLM이 최종 출력한 지문과 문제 출력 형식을 넣어줍니다. 문제 생성 Instruction은 Appendix C를 참조하면 됩니다.

 

 

 

지문 평가

 

네 가지 평가 기준(어휘, 잭관성, 주장의 입체성, 지문 길이)에 각각 5점 척도(5점: 매우 높음)로 점수를 매겨 지문을 평가합니다. LLM을 절대평가보다 상대평가를 수행할 때, 더욱 정확하게 평가합니다(* LLM-as-a-Judge의 Bias 중). 실제 수능 출제 형식과 유사한 지문, 문제를 생성하는 것이 목표이기 때문에 실제 수능 출제 지문을 모든 기준을 5점으로 충족하는 예시로 들어, 수능 지문과 비교해 GPT 생성 지문을 상대평가하도록 합니다. 최종적으로, LLM은 각 기준별 평가 결과와 평가 이유 및 보완점을 출력합니다. 평가에 대한 이유와 보완점을 스스로 생각하도록 해 LLM이 보다 정확한 평가를 내리도록 합니다.

 

지문 평가 Instruction 및 Prompt 구성

 

Instruction에는 실제 수능 지문 출제 매뉴얼을 넣어 수능 지문의 특성, 수능 출제 의도, 지양해야 할 내용을 이해하도록 합니다. Prompt는 네 가지의 평가 항목들과 항목별 평가 질문 및 평가 지침, 출력 예시로 구성합니다. 평가 질문은 각 항목에 대한 설명입니다. 이를 통해 LLM이 평가 기준의 의미를 구체적으로 이해하도록 합니다. 평가 지침은 각 항목별 1점, 5점의 기준입니다. LLM이 점수별 평가 기준을 구체적으로 이해하도록 합니다. 출력 예시는 원하는 출력 형식을 예시로 보여줘 LLM이 출력 형식에 따라 결과를 출력하도록 합니다. 지문 평가 Instruction과 Prompt는 Appendix D를 참조하면 됩니다.

 

 

 

문제 평가

 

네 가지 평가 기준(난이도, 객관성, 관련성, 매력도)에 각각 5점 척도(5점: 메우 높음)로 점수를 매겨 지문을 평가합니다. LLM이 지문을 참고해 문제를 평가할 수 있도록 지문과 문제 쌍을 프롬프트에 넣습니다. 실제 수능 출제 지문/문제 쌍을 모든 기준을 5점으로 충족하는 예시로 들어, 수능 지문과 비교해 GPT 생성 지문/문제 쌍을 상대평가하도록 합니다. 최종적으로, LLM은 각 기준별 평가 결과와 평가 이유 및 보완점을 출력합니다. 평가에 대한 이유와 보완점을 스스로 생각하도록 해 LLM이 보다 정확한 평가를 내리도록 합니다.

 

문제 평가 Instruction 및 Prompt 구성

 

Instruction에는 실제 수능 문제 출제 매뉴얼을 넣어 수능 문제 출제 유형, 문제 출제 시 유의사항, 정답지와 오답지 구성 시 검토사항을 이해하도록 합니다. Prompt는 네 가지의 평가 항목과 항목별 평가 질문 및 평가 지침, 출력 예시로 구성합니다. 평가 질문은 각 항목에 대한 설명입니다. 이를 통해 LLM이 평가 기준의 의미를 구체적으로 이해하도록 합니다. 평가 지침은 각 항목별 1점, 5점의 기준입니다. LLM이 점수별 평가 기준을 구체적으로 이해하도록 합니다. 출력 예시는 원하는 출력 형식을 예시로 보여줘 LLM이 출력 ㅕㅇ식에 따라 결과를 출력하도록 합니다. 문제 평가 Instruction과 Prompt는 Appendix E를 참조하면 됩니다.

 

지문과 문제 모두 자연어 출력 결과에서 항목별 점수를 파싱해 저장합니다. 최종 평가 점수 계산 방법은 이후 Experiment에서 사용할 평가 프롬프트의 정류를 확정한 후, 결정합니다.

# 자연어 평가 결과 출력 예시

"""
- 난이도: ** 2점 **
- 이유: 문제의 난이도가 너무 낮아 학습 효과가 미흡함
- 보완점: 문제의 난이도를 높여 학생들이 더 깊이 있는 사고를 할 수 있도록 조정 필요

- 객관성: ** 3점 **
- 이유: 정답의 명확성이 다소 부족하여 일부 학생들이 혼란을 겪을 수 있음
- 보완점: 정답을 보다 명확히 유도할 수 있도록 문제를 재구성할 것

- 관련성: ** 2점 **
- 이유: 문제와 보기가 지문과의 연계성이 낮아 지문을 참조하지 않고도 풀 수 있음
- 보완점: 모든 보기가 지문의 내용을 직접적으로 반영하도록 수정할 것

- 매력도: ** 1점 **
- 이유: 오답 선택지가 너무 뻔하여 학생들의 흥미를 유발하지 못함
- 보완점: 오답 선택지를 더 창의적이고 도전적으로 구성하여 학생들의 관심을 끌 것
"""

 

 

 

지문 재생성

 

지문 최종 평가 점수가 일정 점수 이하일 경우, 이유와 보완점을 토대로 지문을 재생성합니다. LLM이 출력한 지문 평가 결과에서 이유보완점을 파싱해 추출한 후, 재생성 프롬프트에 넣어줍니다. 재생성 프롬프트에 따라 지문을 재생성합니다. 지문 재생성 프롬프트는 Appendix F를 참조하면 됩니다.

 

 

 

문제 재생성

 

문제 최종 평가 점수가 일정 점수 이하일 경우, 이유와 보완점을 토대로 문제를 재생성합니다. LLM이 출력한 문제 평가 결과에서 이유보완점을 파싱해 추출한 후, 재생성 프롬프트에 넣어줍니다. 재생성 프롬프트에 따라 문제를 재생성합니다. 아래는 문제 재생성 프롬프트는 Appendix F를 참조하면 됩니다.

 

 

 

4) 출력

 

재생성한 지문과 문제를 출력합니다. 문제를 출력할 때, 정답과 해설을 같이 출력합니다.

Figure 5. 출력 형식

 


 

4. Experiments & Results

 

생성/재생성

 

지문/문제 생성 및 재생성을 위해 Chain of Thought(CoT)Few-Shot이라는 두 가지 프롬프트 엔지니어링 방법을 이용해 지문을 생성한 후, 결과를 비교합니다.

 

CoT

 

한 번의 프롬프트 입력마다 ChatGPT-o1(이후 o1으로 칭함)의 지문 생성 CoT를 한 단계씩 학습해 지문을 생성하도록 합니다. o1에게 지문을 생성하도록 한 후, o1이 지문 생성에서 사용한 CoT를 확인합니다. 확인 결과, o1의 CoT는 주제 설정, 구조 설정, 지문 생성의 세 단계로 이뤄집니다.

Figure 6. AI와 관련된 지문을 만들어달라 요청했을 때, ChatGPT-o1의 CoT

 

지문 생성 단계에서는 실제 수능 출제 지문을 One-Shot 예시로 넣어 LLM이 실제 수능 출제 지문의 형식과 내용을 참고해 지문을 생성하도록 합니다. 각 단계별 프롬프트를 만들어 LLM에 입력한 후, 지문을 생성합니다. 단계별 CoT 프롬프트는 Appendix G를 참조하면 됩니다.

 

CoT: 왜 마지막 CoT인 생성 단계에서 One-Shot 예시를 넣어주나?

 

실제 수능 기출을 넣어주지 않으면 수능 기출의 형식과 아에 다른 지문을 생성해내기 때문입니다.

(CoT만을 사용했을 때의 지문 생성 예시 삽입)

 

 

 

One-Shot

 

수능 출제 매뉴얼과 실제 수능 출제 지문 1개를 One-Shot으로 넣어 지문을 생성하도록 합니다.

 

 

 

지문 생성: CoT v. One-Shot

 

독서는 단순한 정보 습득의 수단을 넘어, 개인의 사고를 확장하고 사회적 상호작용을 촉진하는 중요한 활동이다. ㉠독서는 우리가 세상을 이해하고, 다양한 관점을 수용하며, 비판적으로 사고하는 데 필수적인 역할을 한다. 특히, 현대 사회는 정보의 홍수 속에서 살아가고 있으며, 이러한 환경에서 독서는 필수적인 생존 기술로 자리 잡았다. 독서를 통해 우리는 복잡한 문제를 분석하고, 다양한 의견을 비교하며, 자신의 생각을 정리할 수 있는 능력을 기를 수 있다.
㉡독서의 과정은 단순히 글자를 읽는 것을 넘어, 저자의 의도를 파악하고, 그 내용을 자신의 경험과 연결짓는 복합적인 작업이다. 이 과정에서 독자는 자신의 배경지식과 새로운 정보를 통합하여 의미를 구성하게 된다. 예를 들어, 역사적 사건에 대한 책을 읽을 때, 독자는 그 사건이 발생한 배경과 결과를 이해하고, 이를 통해 현재의 사회적 이슈와 연결 지을 수 있다. 이러한 연결은 독자가 단순한 수동적 수용자가 아니라, 능동적인 사고의 주체로서 성장하는 데 기여한다.
㉢또한, 독서는 사회적 상호작용의 중요한 매개체로 작용한다. 독서 후에 이루어지는 토론이나 대화는 개인의 생각을 더욱 풍부하게 하고, 다른 사람의 관점을 이해하는 기회를 제공한다. 이러한 상호작용은 개인의 사고를 확장할 뿐만 아니라, 공동체의 지식과 이해를 심화시키는 데 기여한다. 예를 들어, 독서 모임에서 다양한 의견을 나누는 과정은 각자의 경험과 지식을 공유하게 하여, 독서의 의미를 더욱 깊이 있게 만들어준다.
㉣독서의 중요성은 단순히 개인의 성장에 그치지 않는다. 독서는 사회의 발전에도 기여한다. 지식이 축적되고 공유되는 과정에서, 독서는 새로운 아이디어와 혁신을 촉진하는 원동력이 된다. 예를 들어, 과학 분야에서의 독서는 연구자들이 기존의 이론을 비판하고 새로운 가설을 제시하는 데 필수적이다. 이러한 과정은 결국 사회의 발전과 진보로 이어진다.
㉤마지막으로, 독서는 개인의 정서적 성장에도 큰 영향을 미친다. 문학 작품을 통해 우리는 다양한 감정을 경험하고, 타인의 삶을 이해하게 된다. 이러한 경험은 공감 능력을 키우고, 인간관계를 더욱 깊이 있게 만들어준다. 독서는 단순한 지식의 습득을 넘어, 인간 존재의 복잡성과 아름다움을 탐구하는 여정이기도 하다.
결론적으로, 독서는 개인의 사고를 확장하고, 사회적 상호작용을 촉진하며, 공동체의 발전에 기여하는 중요한 활동이다. 현대 사회에서 독서의 중요성은 더욱 커지고 있으며, 이를 통해 우리는 더 나은 사회를 만들어갈 수 있는 기반을 다질 수 있다. 독서는 단순한 취미가 아니라, 삶의 필수적인 요소로 자리 잡아야 한다.

Figure 7. One-Shot Prompt를 활용한 지문 생성 결과

읽는 것은 존재 자체를 넘어선 삶의 일부로 여겨질 수 있습니다. 독서는 우리에게 다양한 지식과 경험을 제공하고, 사고력과 감성을 키우는 소중한 활동입니다. 그런 의미에서 독서는 학습, 성장, 사색의 기회를 제공하는데 도움을 주는 데에 큰 역할을 합니다. 그렇다면, 독서를 하기 위해 조언을 구한다면 어떤 분야의 서적을 추천해주실 것인지 궁금할 것입니다. 이에 따라 저는 여러 독자들이 공감하고 추천하고 있는 '인문학'을 주제로 한 지적인 독서를 추천합니다.
인문학은 인간의 존재, 사회, 문화, 역사 등 인간의 경험과 사색을 탐구하는 학문입니다. 인문학에서 다루는 주제는 매우 다양하며, 철학, 문학, 역사, 예술 등 다양한 분야로 이루어져 있습니다. 인문학을 통해 우리는 인간의 본성과 인간 사회의 모습에 대해 깊이있는 이해를 갖게 됩니다. 또한, 인문학은 우리의 가치관, 사고방식, 문화적인 배경 등을 이해하는 데에도 큰 도움을 주어 삶의 깊이 있는 인격을 발전시키는 데에 기여합니다.
그러나, 많은 사람들이 인문학을 접하는 데 어려움을 겪기도 합니다. 어려운 용어와 개념, 복잡한 이론들로 인해 접근하기 어렵다고 느껴지기도 합니다. 하지만, 초보자를 위한 인문학 도서는 인문학을 이해하기 쉽게 풀어쓰여 있으며, 예쁜 그림과 그림 해설로 독서 경험을 즐겁게 만들어 줍니다. 이러한 책들은 인문학의 복잡한 내용을 교과서보다 쉽고 흥미롭게 설명하여, 독자들이 보다 쉽게 읽고 이해할 수 있도록 도와줍니다.
인문학 도서는 다양한 분야와 지식을 제공하는 동시에, 그 발전과정을 따라가는 것이 중요합니다. 따라서 독서는 특정 지식의 소비가 아니라, 지식의 생산과 창출로서의 자기 성찰을 독려하는 체험입니다. 좋은 인문학 도서는 독자에게 사색과 깨달음을 제공하면서도, 다른 사람들과의 대화와 공유를 통해 의미 있는 경험을 가져다 줍니다. 따라서, 지식과 사고의 폭을 넓히며, 사고력을 기를 수 있는 인문학 도서를 선정하는 것은 매우 중요한 일이라고 할 수 있습니다.

Figure 8. ChatGPT-o1의 CoT를 활용한 지문 생성 결과

 

위 두 결과는 각각 One-Shot과 CoT를 이용해 생성한 지문입니다. 정성적인 평가를 통해 두 지문을 비교해 평가한 후, 비교적 완성도 높은 지문을 생성한 프롬프트 엔지니어링 방법론을 최종 지문 생성 방법론으로 채택합니다. 주제 및 주장, 구조, 길이의 세 가지 기준으로 지문을 평가합니다.

 

1) 주제 및 주장

One-Shot으로 생성한 지문에서는 독서의 기능이라는 주제를 통해 독서가 개인과 사회에 중요한 역할을 한다고 주장하고 있습니다. CoT로 생성한 지문엣는 인문학을 주제로 한 독서를 추천하는 것을 주제로 인문학의 역할을 강조하며, 인문학 독서에 있어 도서 선정이 중요한 역할을 한다고 주장하고 있습니다. 두 지문 모두 일반적인 수능 지문에서 나타나는 입체적인 주장이나 논리 구조를 보여주지는 않지만, '독서'라는 주제에 타당한 주장을 펼칩니다.

 

2) 구조

One-Shot 생성 지문의 경우, 본론의 세 문단 모두 독서의 기능을 근거로 들어 독서의 중요성을 강조함으로써 본론의 각 문단이 통일성을 띄며 자연스럽게 이어집니다. 또한 "지식이 축적되고 공유되는 과정에서, 독서는 새로운 아이디어와 혁신을 촉진하는 원동력이 된다. 예를 들어, 과학 분야에서의 독서는 연구자들이 기존의 이론을 비판하고 새로운 가설을 제시하는 데 필수적이다. 이러한 과정은 결국 사회의 발전과 진보로 이어진다."와 같이 구체적인 예시를 들어 독서의 기능을 설득력있게 전개합니다. CoT 생성 지문의 경우 본론의 문단끼리 서로 다른 내용을 강조하고 있어 통일성이 떨어지고, 주제 전환이 잦아 매끄럽게 이어지지 않습니다. 또한, " 어려운 용어와 개념, 복잡한 이론들로 인해 접근하기 어렵다고 느껴지기도 합니다. 하지만, 초보자를 위한 인문학 도서는 인문학을 이해하기 쉽게 풀어쓰여 있으며, 예쁜 그림과 그림 해설로 독서 경험을 즐겁게 만들어 줍니다."에서 볼 수 있듯이 구체적인 예시나 설명 없이 "이해하기 쉽게", "예쁜 그림과 그림 해설"등의 주관적이고 모호한 표현을 사용해 주장을 전개해 주장을 이해하기 어렵고 설득력이 떨어집니다.

 

3) 길이

One-Shot과 CoT 생성 지문 모두 일반적인 수능 지문의 길이에는 미치지 목하지만 One-Shot 생성 지문이 조금 더 길어 일반적인 수능 지문의 길이에 비교적 더 가깝다는 것을 알 수 있습니다.

 

위의 예시를 포함해 각각 10개의 주제별 지문을 생성해 비교한 결과, 전반적으로 One-Shot으로 생성한 지문이 CoT로 생성한 지문보다 비교적 높은 완성도를 보입니다. 따라서, One-Shot Prompt를 이용해 지문을 생성하는 것으로 지문 생성 방법을 확정합니다.

 

 

 

문제 생성: CoT v. One-Shot

 

문제 생성의 경우는 RAG를 통해 추출한 수능 기출의 문제 예시를 넣어주면 문제를 생성하지 않고 문제를 풀어버리는 등 출력의 결과가 일정하지 않는다는 문제가 있었습니다. 따라서 문제 생성의 경우는 그냥 Instruction만을 활용해서 만들기로 했습니다.

(문제 생성에서 One-Shot을 넣어주는 경우 문제 예시 삽입) 

 

 

 

평가: 편향 확인 및 완화를 위한 Instruction 및 Prompt

 

평가 편향이 발생하는지를 확인하고, 평가 신뢰도를 높이기 위해 여러 종류의 프롬프트를 사용해 평가하고 평가 결과를 비교합니다. 평가할 지문, 문제 쌍 데이터를 만들기 위해 독서, 과학, 문학 등의 10개의 주제별로 지문, 문제 쌍을 하나씩 생성했습니다. 총 10개의 지문, 문제 쌍에 대해 각 쌍별로 10번씩 평가를 진행했습니다.

 

위치 편향: 수능GPT/GPT수능 순서쌍 Prompt

 

위치 편향 여부를 확인하기 위해 실제 수능 출제 지문과 GPT 생성 지문의 등장 순서를 바꿔 평가를 수행합니다. 수능GPT Prompt에는 수능→GPT 순서로, GPT수능 Prompt에는 GPT→수능 순서로 등장하도록 프롬프트를 구성합니다. 서로 다른 등장 순서를 가진 두 가지의 프롬프트를 이용해 평가한 후 평가 점수를 비교해 평가 편향 여부를 확인합니다.

 

Figure 9. 부정형 프롬프트를 사용한 지문별 수서쌍 최종 평가 점수 비교 결과(Left), 부정형 프롬프트를 사용한 문제별 순서쌍 최종 평가 점수 비교 결과(Right)

 

위 막대 그래프는 지문, 문제별로 순서쌍 간의 최종 평가 점수를 비교한 결과입니다. 참고로 긍정형 평가 Prompt를 사용하는 경우는 점수의 평균 자체가 너무 높아지기 때문에 순서 편향을 잘 들어나지 않기 때문에 Figure에 넣지 않았습니다. 긍정형 평가 Prompt를 사용한 점수 분포는 Appendix H를 참조하면 됩니다. 이 Figure는 10번의 평가 중 7개의 평가는 앞에 등장하는 평가 대상을 더 높게 평가함을 보여줍니다. 즉, 평가 대상과 평가 Prompt는 다 똑같은데, 순서만 바뀌었다고 평가 점수가 달라지는 것입니다.

 

 

 

자기 향상 편향: 긍정형/부정형 Prompt

 

자기 향상 편향 여부를 확인하기 위해 GPT 평가 결과와 Claude 평가 결과를 비교합니다. Claude 평가 시에도 GPT 평가 결과와 동일한 수능GPT 순서쌍, GPT수능 순서쌍 Prompt를 이용합니다. 평가 결과, GPT의 평가 점수가 높다면 자기 향상 편향이 있는 것으로 판단합니다.

 

자기 향상 편향이 있다면, 같은 지문에 대해 긍정형과 부정형 Prompt를 한 번씩 사용해 자기 편향을 완화합니다. 자기 향상 편향으로 인한 긍정적인 편향을 강제로 일으키는 것입니다. 또한 이를 완화하기 위해 부정적인 편향도 일으켜 이들의 평가 점수를 평균낸다면, 자기 향상 편향을 해소할 수 있을 것이라 기대합니다.

 

긍정형 Prompt에는 "이해에 도전이 될 수 있음"과 같이 긍정적인 어조를 사용해 관대하게 평가를 내리도록 유도합니다. 부정형 Prompt에는 "전혀 이해하지 못함"과 같이 주정적인 어조를 사용해 깐깐하게 평가를 내리도록 유도합니다.

 

긍정형/부정형 Prompt 효과: 공격적인 입력에도 강건한 평가 LLM

 

긍정형/부정형 Prompt를 통해 점수들을 얻어낸 후 평균을 내면 "긍정적으로 평가해주세요."와 같이 평가에 영향을 줄만한 공격하는 입력에 대해서도 강건한 LLM을 만들 수 있습니다. 부정형 Prompt를 통해서도 점수를 얻어서 평균을 내기 때문입니다.

 

긍정형/부정형 Prompt 효과: 자기 향상 편향 해소?

 

Figure 10. 지문별 Claude와 GPT-4o-mini의 순서쌍, 긍정형/부정형 프롬프트를 이용한 최종 평가 점수 비교

 

위 그래프는 Claude와 GPT의 지문별 최종 평가 점수 분포입니다. 위 통계에서 사용한 점수는 긍정형/부정형 Prompt를 통해 생성해낸 점수의 평균입니다. Figure를 보면, GPT의 평가 점수가 Claude의 평가 점수보다 낮은 경우도 많습니다. 따라서, 긍정형/부정형 프롬프트를 각각 사용해 평가함으로써 자기 향상 편향을 완화했음을 알 수 있습니다.

 

 

 

평가 방법 최종 점수 계산법 확정

 

위에서 말한 편향들을 해소하기 위해 긍정-수능GPT, 긍정-GPT수능, 부정-수능GPT, 부정-GPT수능의 네 가지 Prompt를 이용해 생성한 지문과 문제를 평가하는 것으로 평가 방법을 확정합니다. 즉, 하나의 지문/문제마다 네 번의 평가를 거치게 되며 네 개의 평가 점수를 가집니다. 네 개의 평가 점수의 평균값을 최종 점수로 사용합니다.

 

 

 

재생성 점수

 

Figure 11. (Left) 문제 평가 점수 분포. (Right) 지문 평가 점수 분포. 문제의 경우 하위 20%의 문제들은 점수가 3.02점 이하이고, 지문의 경우 하위 20%의 지문들은 점수가 3.35점 이하임을 알 수 있음.

 

지문, 문제의 최종 평가 점수 각각 40개씩을 이용해 누적 확률 분포 그래프를 그린 결과입니다. 하위 20%에 해당하는 점수를 재생성 Treashold, 즉 재생성의 기준으로 삼습니다. 지문은 최종 평가 점수가 3.35점 이하일 경우, 문제는 최종 평가 점수가 3.02점 이하일 경우, 하위 20%에 해당합니다. 따라서, 지문 평가 점수가 3.35점 이하일 경우, 문제의 경우 최종 평가 점수가 3.02점 이하일 경우 재생성합니다.

 

 

 

재생성 결과

 

지문, 문제별로 네 개의 평가 결과가 출력됩니다. Input의 길이가 길어질수록 성능이 저하되고 API비용이 증가하기 때문에 가장 부정적으로 평가하는 경향을 보이는 부정-수능GPT 평가 Prompt의 평가 결과를 재생성 Prompt에 입력한 다음, 재생성을 진행합니다.

 

독서는 단순한 정보 습득의 수단을 넘어, 개인의 사고를 확장하고 사회적 상호작용을 촉진하는 중요한 활동이다.
㉠독서는 우리가 세상을 이해하고, 다양한 관점을 수용하며, 비판적으로 사고하는 데 필수적인 역할을 한다.
특히, 현대 사회는 정보의 홍수 속에서 살아가고 있으며, 이러한 환경에서 독서는 필수적인 생존 기술로 자리 잡았다. 독서를 통해 우리는 복잡한 문제를 분석하고, 다양한 의견을 비교하며, 자신의 생각을 정리할 수 있는 능력을 기를 수 있다.
독서는 단순한 정보 습득을 넘어 개인의 사고를 확장하고 사회적 상호작용을 촉진하는 중요한 활동이다.
㉠독서는 우리가 세상을 이해하고 다양한 관점을 수용하며 비판적으로 사고하는 데 필수적이다.
현대 사회는 정보의 홍수 속에서 살아가고 있으며, 이러한 환경에서 독서는 필수적인 생존 기술로 자리 잡았다. 독서를 통해 우리는 복잡한 문제를 분석하고 다양한 의견을 비교하며 자신의 생각을 정리할 수 있는 능력을 기를 수 있다.

Figure 12. 지문 재생성 결과. 위는 재생성하기 전의 지문이고 아래는 재생성 후의 지문이다.

 

지문 재생성 결과, " ㉠독서는 우리가 세상을 이해하고, 다양한 관점을 수용하며, 비판적으로 사고하는 데 필수적인 역할을 한다."를 " ㉠독서는 우리가 세상을 이해하고 다양한 관점을 수용하며 비판적으로 사고하는 데 필수적이다."로 수정했을 뿐, 다른 변화는 없어 지문 내용이나 구성 자체의 유의미한 변화는 없습니다.

 

o1으로 지문을 재생성한 결과, o1는 지문과 내용의 구조를 더욱 그럴 듯하게 수정합니다. 추후에 여러 번의 인퍼런스나 프롬프트 최적화를 통해 GPT-4o-mini로 o1의 재생성 성능을 구현하는 방법을 연구하거나, 재생성 단계에서는 o1모델을 사용하는 방향을 고려해볼 수 있습니다.

 

“윗글을 바탕으로 할 때, 지문의 내용과 일치하지 않는 것은?”
① 독서는 개인의 사고를 확장하는 데 기여한다.
② 독서는 단순한 정보 습득의 수단이다.
③ 독서는 사회적 상호작용을 촉진한다.
④ 독서는 공동체의 발전에 기여한다.
⑤ 독서는 개인의 정서적 성장에 영향을 미친다.

정답: ②
해설: 지문에서는 독서가 단순한 정보 습득을 넘어서는 활동이라고 설명하고 있으므로, 이 내용은 지문과 일치하지 않는다.
“윗글을 바탕으로 할 때, 지문의 내용과 일치하지 않는 것은?”
① 독서는 개인의 사고를 확장하는 데 기여한다.
② 독서는 단순히 정보를 피상적으로 수용하는 수단이 아니다.
③ 독서는 사회적 상호작용을 촉진한다.
④ 독서는 공동체의 발전에 기여하는 중요한 요소이다.
⑤ 독서는 개인의 정서적 성장에 긍정적인 영향을 미친다.

정답: ②
해설: 지문에서는 독서가 단순히 정보를 피상적으로 수용하는 것을 넘어서는 활동이라고 설명하고 있으므로, 이 내용은 지문과 일치하지 않는다.

간단한 수정 근거:
문제의 선택지 ②를 "단순한 정보 습득의 수단이다"에서 "단순히 정보를 피상적으로 수용하는 수단이 아니다"로 수정하여, 지문의 내용을 보다 명확하게 반영하도록 하였습니다. 이로 인해 학생들이 지문의 핵심 내용을 깊이 이해해야만 정답을 도출할 수 있도록 난이도를 조정했습니다. 또한, 다른 선택지들도 지문의 내용을 보다 구체적으로 반영하도록 다듬었습니다

Figure 13. 문제 재생성 결과. 위는 재생성하기 전의 문제이고 아래는 재생성 후의 문제이다.

 

문제 재생성 결과, "독서는 단순한 정보 습득의 수단이다."가 "단순히 정보를 피상적으로 수용하는 수단이 아니다."로 수정하는 등 선지별 내용을 수정한 것을 알 수 있습니다. 하지만, 역시 새로운 선지를 생성해내는 등 문제 내용이나 구성 자체의 유의미한 변화를 이끌어내지는 못합니다. 결론적으로, 문장내에서 어휘나 내용을 수정하는 것은 가능한 것으로 보이나 여러 문장으로 구성된 지문 전체의 구조나 내용을 수정하는 것은 GPT-4o-mini를 통해서는 힘들어보입니다.

 


 

5. Conclusion

 

프로젝트의 정당성 및 활용 가능성

 

정당성

 

LLM을 단순히 문제 생성 도구로 사용하는 것을 넘어, 생성된 지문과 문제를 평가하는 Judge로도 활용할 수 있음을 확인했습니다. 문제 생성부터 검증까지의 전체 과정에서 LLM의 잠재적 유용성을 입증할 수 있었습니다. 또한 생성 LLM의 성능을 Judge를 수행하는 LLM의 연결만을 이용해서 끌어올렸다는 점에서 유의미합니다.

 

수능 문제를 출제하는 데에는 많은 자원과 시간이 소요되며, 이는 교육 시스템에서 상당한 부담으로 작용합니다. 그러나 LLM을 활용하면 문제 제작 과정을 자동화함으로써 제작 효율성을 크게 높일 수 있을 것입니다. 더불어, 개인화된 양질의 학습 자료를 학생에게 저비용으로 제공할 수 있어, 학생 간의 교육 격차를 완화하는 데 기여할 수 있습니다.

 

 

 

활용 가능성

 

LLM이 단순히 문제를 생성하는 것에 그치지 않고, 문제의 난이도를 평가하고, 정답을 검토하며, 해설까지 작성할 수 있으므로 학생들에게 종합적인 학습 경험을 제공할 수 있습니다. 또한, LLM은 학습자의 수준에 맞춰 다양한 난이도를 설정할 수 있기 때문에, 학생들이 자신에게 적합한 수준에서 문제를 풀며 학습할 수 있습니다. 이를 통해 특정 주제나 문항 유형에 대한 집중적인 연습 자료를 제공하는 것도 가능해지며, 개인 맞춤형 학습 환경을 만들 수 있습니다.

 

 

 

아쉬운 점 및 보완 방향

 

생성한 지문/문제의 완성도 부족

 

수능의 출제 방식, 평가 기준에 대한 깊은 이해가 부족해 지문과 문제의 질적 완성도가 떨어지는 경우가 있었습니다. 지문의 경우는 고등학교 수준에 맞지 않는 너무 쉬운 어휘와 개념만을 사용하거나, 문제의 경우는 지문을 단순히 요약새 선지를 구성합니다. 지문의 주장을 분석해 지문에 등장하지 않는 예시를 들어 선지를 구성하는 등 창의적인 생성을 해내지 못하는 것으로 보입니다. 수능 문제 출제 경험이 있는 전문가나 교육자의 피드백을 얻어 Prompt및 Instruction을 최적화하거나, 생성한 지문/문제를 평가한 후 수정하는 과정을 여러번 거쳐 완성도를 점진적으로 개선할 수 있을 것입니다.

 

 

 

재생성 기준, Threashold 설정의 미완성

 

저희 팀은 휴리스틱하게 하위 20%에 해당하는 지문과 문제를 재생성하도록 결정했습니다. 이는 정확하지 않은 기준으로, 더 발전할 가능성이 있습니다. 우선 재생성을 너무 많이 한다면 시간이나 금전적 비용의 측면에서 불리합니다. 따라서 정확하고 객관적인 재생성의 기준은 필수적입니다. 만약 재생성 전과 재생성 후가 별 차이가 없다면 더 이상 재생성을 진행하지 않아도 된다고 판단할 수도 있습니다. 즉, BLEU Score를 이용해 재생성 전과 재생성 후의 유사도를 비교하여, 많이 바뀌지 않았다면 더 이상 재생성을 진행하지 않아도 되게 설정할 수도 있습니다.

 

 

 

Few-Shot 예시 모방

 

Few-Shot 예시를 입력하면, 생성되는 지문이 Few-Shot 예시와 비슷하게 생성되는 경향이 있었습니다. 예를 들어 Few-Shot 지문의 주제가 동양과 서양의 천문학 관점의 차이였다면, 생성되는 지문 역시 동,서양의 천문학 관점을 비교하는 내용을 담고 있었습니다. 이를 보완하기 위해서는 입력해주는 예시의 수를 늘리거나, 예시와 함께 명확한 지침을 제공하거나, 더욱 다양한 예시를 조합하여 모델의 일반화 성능을 강화할 수 있습니다. 다양한 패턴의 데이터를 포함하여 모델을 Fine-Tuning하는 것도 방법이 될 수 있습니다.

 

 

 

특정 표현, 지표 인식 불가

 

(가), ㄱ 과 같은 특정 표지나 지표를 인식하지 못했습니다. 이를 보완하기 위해 문제 생성 후 (가), ㄱ 과 같은 표현을 삽입하는 규칙 기반 후처리 알고리즘을 적용할 수 있습니다. 혹은 (가), ㄱ 이 포함된 문제 템플릿을 미리 정의하고, 생성된 텍스트를 해당 템플릿에 맞춰 조정할 수도 있습니다.

 

 

 

문제 유형 다양성 부족

 

선지형, 단답형, 서술형 등 특정 유형의 문제를 생성하는 데 있어 다양성이 낮았습니다. 이를 보완하기 위해 유형별로 고도화된 알고리즘과 함수 설계를 통해 다양한 문제 유형을 안정적으로 생성할 수 있도록 기능을 강화할 수 있습니다.

 

 

 

출력 형식

 

LLM의 출력으로부터 유의미한 데이터를 파싱할 때, LLM의 출력의 형식이 매번 달라진다는 점이 변수가 될 수 있습니다. Prompt에서 출력 형식을 고정해줬음에도 불구하고, 10번 중 1번꼴로 출력의 형식이 달라져 데이터를 파싱할 수 없는 경우가 발생했습니다. 따라서 JSON형태로 출력을 고정해 안정적으로 데이터를 파싱할 수 있습니다.

 


 

Appendix

 

A. 관련 단어 증강 Instruction 및 Prompt

user_query_augment_instruction = """
# 당신은 “한국 수능 비문학(독서) 지문 및 문제”를 전문적으로 만드는 교사이자 교육 평가 전문가입니다.

# 사용자의 입력을 참고해 비문학 지문의 주제를 만들어야합니다.

# 또한 해당 주제와 관련된 단어들을 생성해야합니다.
"""

user_query_augment_template = """
# 예시1

## 최근에 유행하는 인공지능에 대한 비문학 문제 만들어줘.

사이버네틱스 cybernetics
생물 및 기계를 포함하는 계(系)에서의 제어와 통신 문제를 종합적으로 연구하는 학문. 미국의 수학자 위너가 창시하였으며, 인공 지능ㆍ제어 공학ㆍ통신 공학 따위에 응용한다.

자연어 처리
컴퓨터를 이용하여 인간 언어의 이해, 생성 및 분석을 다루는 인공 지능 기술.

딥페이크
인공 지능 기술을 활용해 기존 인물의 얼굴이나, 특정 부위를 합성한 영상 편집물 (딥페이크는 인공 지능 심층 학습을 뜻하는 디프 러닝 [deep learning] 과 가짜를 뜻하는 페이크 [fake] 의 합성어)

데이터 마이닝 기술
인공 지능 기법으로 데이터들 간의 상관관계를 찾아내어 새로운 정보를 추출하는 기술.

## 주제: 인공지능

# 예시2

## 법률 지문을 만들어줘.

변호사
법률에 규정된 자격을 가지고 소송 당사자나 관계인의 의뢰 또는 법원의 명령에 따라 피고나 원고를 변론하며 그 밖의 법률에 관한 업무에 종사하는 사람.

도덕
사회의 구성원들이 양심, 사회적 여론, 관습 따위에 비추어 스스로 마땅히 지켜야 할 행동 준칙이나 규범의 총체. 외적 강제력을 갖는 법률과 달리 각자의 내면적 원리로서 작용하며, 또 종교와 달리 초월자와의 관계가 아닌 인간 상호 관계를 규정한다.

위법
법률이나 명령 따위를 어김.

제도
관습이나 도덕, 법률 따위의 규범이나 사회 구조의 체계.

## 주제: 법률

# 예시 3

## 미술과 관련된 지문을 만들어줘.

현대 미술
20세기에 전개된 새로운 경향의 미술. 입체파, 미래파, 표현주의, 구성주의, 다다이즘, 초현실주의 등 여러 가지 유파를 포함한다.

바로크 미술
16세기 말부터 18세기 초에 걸쳐 유럽에서 유행한 미술 양식. 정적이고 이상주의적인 르네상스 미술이 붕괴한 후에 생긴 현실적이며 동적인 양식으로, 이탈리아에서 발생하여 독일, 프랑스, 에스파냐 등지에서도 성행하였다. 대표적인 예술가는 베르니니이다.

로코코 미술
바로크 미술과 신고전주의 미술 사이에 프랑스에서 성행한 유럽 미술 양식의 하나. 바로크와 달리 경쾌하고 화려한 특성을 지니며, 특히 실내 장식이나 도자기 따위의 공예에 뛰어난 작품이 많다.

미술 영화
미술 작품 또는 미술가의 작품 제작 과정이나 그의 생활을 다룬 기록 영화.

## 주제: 현대 미술

# 사용자 입력

{user_input}

## 사용자의 입력을 참고해 비문학 지문에 어울리는 주제를 만들어줘.

## 또한 생성한 주제와 관련된 단어 4개를 위 예시를 참고해서 생성하고 그 뜻을 적어줘.
"""

 

B. 지문 생성 Instruction 및 Prompt

instruction = """
# 당신은 “한국 수능 비문학(독서)"에 관한 교사이자 교육 평가 전문가입니다.
"""

make_passage_template = """
1. 2000자 (공백 제외) 내외의 {subject}에 대한 수능 지문을 작성해주십시오.

# 아래는 실제 수능 출제 지문 예시입니다. 지문의 형식과 전개 방식을 참고해주십시오.
{passages}

# 아래는 지문 생성시 고려해야하는 사항입니다.

## 지문 생성

한국 수능에 나올 법한 비문학(독서) 지문을 작성합니다.

지문의 주제 주어진 주제를 사용하되, 지나치게 전문적이거나 특정 전공 지식이 필수적인 내용은 피하십시오.

분량은 대략 2000자(공백 제외) 정도로, 수능에서 흔히 볼 수 있는 난이도를 유지하십시오.

타인의 저작권을 침해하지 않는 오리지널 텍스트를 작성하십시오.

실제 시험 현장에서 사용 가능한 자연스러운 문체와 어휘, 문장 구조를 사용하십시오.

다음과 같은 특성을 갖춘 지문을 생성합니다.

- 삶의 경험과 사색이 응축된 글
- 현대적인 관점에서 계승할 만한 가치 있는 내용을 담은 고전
- 풍부한 정서를 잘 표현하고 있는 아름다운 글
- 논리적∙구성상의 엄밀성, 내용상의 풍부함 등 일반적인 좋은 글의 요건이 두루 갖추어져 글쓰기의 모범을 보이는 글
- 치밀한 사고와 엄밀한 논리적인 전개를 보여주는 글
- 글 자체가 탐구 정신을 자극할 뿐만 아니라 읽기 과정 자체를 통하여 사고의 폭을 넓혀 주고, 사고력 훈련의 기회가 될 수 있는 글
- 단순 사실이나 주장을 평면적으로 담고 있는 지문보다 필자의 주장이 입체적으로 전개되고 있는 지문을 선정한다.
- 내용과 형식 면에서 교육적으로 활용할 수 있는 지문을 선정한다.
- 가능한 한 문제 상황 중심으로 통합 교과적 소재를 활용하여 출제한다.

그러나 다음과 같은 내용이 포함된 지문은 배제하도록 한다.

- 특정 종교나 특정 지역 혹은 여성, 노인, 장애인을 근거 없이 비방하는 내용
- 논쟁의 여지가 있는 민감하거나 자극적인 내용
- 지나치게 난삽한 내용이나 학계에서 공인되지 않은 학설을 의문의 여지가 없는 진리인 듯 기술한 내용
- 논쟁의 대상인 어느 한편을 일방적으로 옹호만 하거나 비난하면서 균형 감각을 상실하고 있는 내용

"""

 

C. 문제 생성 Instruction 및 Prompt

instruction = """
# 당신은 “한국 수능 비문학(독서)"에 관한 교사이자 교육 평가 전문가입니다.
"""

make_probs_template = """
해당 지문에 대한 오지선다형 문제를 출제해주십시오.(보기: ①, ②, ③, ④, ⑤)
그리고 문제에 대한 간단한 해설을 포함하세요.

# 지문
{passage}

# 지문을 기반으로 3개의 오지선다형 문제를 만들어 주십시오.

# 각 문항은 아래 문제 유형을 골고루 반영해 주세요.
(1) 어휘∙어법 관련
지문에 사용된 특정 어휘(또는 표현)의 의미를 묻거나, 문맥에 맞는 문법적 형태를 고르는 문제 등

(2) 사실적 사고
지문에 제시된 정보∙사실을 이해∙요약하거나, 지문의 내용과 일치/불일치를 판단하는 문제
예시: “윗글을 바탕으로 할 때, 지문의 내용과 일치하지 않는 것은?”

(3) 추론적 사고
문맥적∙논리적 관계를 분석하여 결론을 도출하거나, 지문의 다음 전개를 추측하게 하는 문제
예시: “윗글을 바탕으로 추론한 내용으로 적절하지 않은 것은?”

(4) 비판적 사고
지문 속 필자의 주장이나 예시에 대한 적절성∙타당성을 평가하는 문제
예시: “지문에 나타난 생각으로 적절하지 않은 것은?”

# 아래는 문제를 만들 때 참고해야하는 사항입니다.

## 문항
독창성: 시중 참고서나 모의고사, 학원 교재, 신문 등에 그대로 나와 있는 문항은 없는가?

난이도: 지나치게 어렵거나 쉬운 문항은 없는가?
        난이도와 변별도는 적절한가?

길이: 답지의 길이가 지나치게 길거나 짧은 것은 없는가?
      문두나 답지의 문장 표현이 불필요하게 장황한 것은 없는가?

관련성: 문제와 직접 관련이 없는 답지가 제시되어 있지는 않은가?

균형성:	정답이 특정한 답지에 편중되어 있지는 않은가?

## 정답지
객관성:	관점에 따라 오답이 될 가능성은 없는가?

난이도:	묻는 내용을 잘 모르는 학생들도 금방 정답을 찾을 수 있는, 너무 뻔한 답지가 아닌가?

관련성:	지문이나 문두와 관계없이 정답을 찾을 수 있지는 않은가?

명확성:	정답 시비의 소지가 있지는 않은가?

## 오답지
변별성:	정답지에 비해 너무 눈에 띄는 오답지는 없는가?

매력도:	오답지의 매력도가 너무 부족하지 않은가?

객관성:	관점에 따라 정답이 될 가능성은 없는가?

관련성:	오답지는 모두 문두나 보기, 지문과 직접적으로 관련이 있는가?

# 다음의 형식 예시을 따라 3개의 오지선다형 문제들을 만드세요.

## 출력 형식 예시

문항 예시)
1. (문항 텍스트)
① (보기)
② (보기)
③ (보기)
④ (보기)
⑤ (보기)

정답:
해설:
"""

 

D. 지문 평가 Prompt

D.1 지문 긍정형 평가 Prompt

positive_prompt_template = """

1. 어휘 수준 (5점 척도)
- 평가 질문: "지문에서 사용하는 어휘가 고등학생들이 자연스럽게 이해하고 활용할 수 있는 수준인가?"
- 평가 지침:
1점: 일부 어휘가 다소 생소하거나 어려워 고등학생들의 이해에 다소 도전이 될 수 있음
2점: 어휘 선택이 전반적으로 적절하지만, 몇몇 단어는 추가 설명이 필요할 수 있음
3점: 대부분의 어휘가 고등학생들에게 친숙하며, 이해에 무리가 없음
4점: 어휘가 다양하고 풍부하여 고등학생들의 어휘력 향상에 기여함
5점: 어휘 사용이 매우 적절하고 풍부하여 고등학생들이 자연스럽게 이해하고 학습에 도움이 됨

2.유창성 (5점 척도)
- 평가 질문: "지문의 문장이 매끄럽고 논리적으로 연결되어 고등학생들이 읽기에 편안한가?"
- 평가 지침:
1점: 문장 구조가 다소 복잡하거나 일관성이 부족하여 읽기에 어려움이 있음
5점: 뛰어난 유창성과 논리적 연결로 고등학생들이 쉽게 이해하고 몰입할 수 있음

3. 주장의 입체성 (5점 척도)
- 평가 질문: "지문의 주장이 다각적으로 전개되어 고등학생들이 다양한 관점에서 사고할 수 있게 하는가?"
- 평가 지침:
1점: 주장이 다소 단편적이거나 한정된 관점에서 전개됨
5점: 주장이 매우 입체적으로 전개되어 고등학생들이 깊이 있는 사고와 분석을 할 수 있게 함

4. 길이 (5점 척도)
- 평가 질문: "지문의 길이가 수능 지문의 길이와 비슷한가?"
- 평가 지침:
1점: 지문의 길이가 수능 지문보다 1000자 정도 짧거나 길다
5점: 지문의 길이가 수능 지문와 비슷함

수능 지문은 모든 기준을 5점 만점으로 충족하는 지문입니다. 수능 지문을 기준으로, 차이를 비교하십시오.
수능 지문과 GPT생성 지문을 상대평가로 점수를 매겨주십시오.
수능 지문의 점수를 매기고 GPT 생성 지문의 점수를 매겨주세요.

{passage_A}

{passage_B}

## 결과 출력 형식
- 평가 결과에 대한 이유와 비교 결과도 함께 제시해 주십시오.
- 5점 미만인 항목에 대해 보완점도 제시해 주십시오
- 출력 형식은 아래의 예시를 참고하세요

-예시)
수능 지문 | 모든 기준 5점
어휘 수준: ** 5점 **
이유: 어휘 사용이 매우 적절하고 풍부하여 고등학생들이 자연스럽게 이해하고 학습에 도움이 됨

유창성: ** 5점 **
이유: 뛰어난 유창성과 논리적 연결로 고등학생들이 쉽게 이해하고 몰입할 수 있음

주장의 입체성: ** 5점 **
이유: 주장이 매우 입체적으로 전개되어 고등학생들이 깊이 있는 사고와 분석을 할 수 있게 함

길이: ** 5점 **
이유: 지문의 길이가 최적화되어 고등학생들이 충분히 읽고 깊이 있는 사고를 할 수 있는 이상적인 분량임 (1501자 이하)

GPT 생성 지문 |
어휘 수준: ** 4점 **
이유: 어휘가 다양하고 풍부하여 고등학생들의 어휘력 향상에 크게 기여함
비교: 수능 지문은 어휘 사용이 매우 풍부하고 다양하여 학습에 최적인 반면, GPT 생성 지문도 우수하지만 약간 덜 다양함
보완점: 일부 전문 용어를 추가하여 어휘 수준을 더욱 향상시킬 수 있음

유창성: ** 4점 **
이유: 문장 구성이 매우 매끄럽고 자연스러워 읽는 흐름이 좋음
비교: 수능 지문은 유창성과 논리적 연결이 뛰어나 몰입도가 매우 높았으며, GPT 생성 지문도 거의 유사하게 우수함
보완점: 문장 연결을 더욱 강화하여 유창성을 수능 지문 동일하게 맞출 수 있음

주장의 입체성: ** 4점 **
이유: 주장이 다양한 관점에서 심도 있게 다루어져 사고의 폭을 넓힘
비교: 수능 지문은 주장이 매우 입체적으로 전개되어 깊이 있는 사고를 유도하는 반면, GPT 생성 지문도 훌륭하지만 약간의 추가적인 관점이 있을 수 있음
보완점: 추가적인 관점을 포함하여 주장의 입체성을 더욱 강화할 수 있음

길이: ** 4점 **
이유: 지문의 길이가 충분하여 심도 있는 이해와 사고를 유도함 (1201~1500자)
비교: 수능 지문은 길이가 최적화되어 이상적인 분량인 반면, GPT 생성 지문도 적절하지만 약간 짧아질 수 있음
보완점: 상세한 예시를 추가하여 지문의 내용을 더욱 풍부하게 만들 수 있음(1501자 이하)

## 위 지침에 따라, 긍정적으로 지문을 살펴보시고 평가 기준에 맞추어 점수를 매긴 뒤,
점수가 만점에 미치지 못하면 개선을 위한 제언을 함께 제시해 주십시오.

감사합니다.

"""

 

D.2 지문 부정형 평가 Prompt

negative_prompt_template = """

## 평가기준

1. 어휘 수준 (5점 척도)
- 평가 질문: "지문에서 사용하는 어휘가 고등학생들이 자연스럽게 이해하고 활용할 수 있는 수준인가?"
- 평가 지침:
1점: 일부 어휘가 다소 생소하거나 어려워 고등학생들의 이해에 다소 도전이 될 수 있음
2점: 어휘 선택이 전반적으로 적절하지만, 몇몇 단어는 추가 설명이 필요할 수 있음
3점: 대부분의 어휘가 고등학생들에게 친숙하며, 이해에 무리가 없음
4점: 어휘가 다양하고 풍부하여 고등학생들의 어휘력 향상에 기여함
5점: 어휘 사용이 매우 적절하고 풍부하여 고등학생들이 자연스럽게 이해하고 학습에 도움이 됨

2.유창성 (5점 척도)
- 평가 질문: "지문의 문장이 매끄럽고 논리적으로 연결되어 고등학생들이 읽기에 편안한가?"
- 평가 지침:
1점: 문장 구조가 다소 복잡하거나 일관성이 부족하여 읽기에 어려움이 있음
5점: 뛰어난 유창성과 논리적 연결로 고등학생들이 쉽게 이해하고 몰입할 수 있음

3. 주장의 입체성 (5점 척도)
- 평가 질문: "지문의 주장이 다각적으로 전개되어 고등학생들이 다양한 관점에서 사고할 수 있게 하는가?"
- 평가 지침:
1점: 주장이 다소 단편적이거나 한정된 관점에서 전개됨
5점: 주장이 매우 입체적으로 전개되어 고등학생들이 깊이 있는 사고와 분석을 할 수 있게 함

4. 길이 (5점 척도)
- 평가 질문: "지문의 길이가 수능 지문의 길이와 비슷한가?"
- 평가 지침:
1점: 지문의 길이가 수능 지문보다 1000자 정도 짧거나 길다
5점: 지문의 길이가 수능 지문와 비슷함

수능 지문은 모든 기준을 5점 만점으로 충족하는 지문입니다. 수능 지문을 기준으로, 차이를 비교하십시오.
수능 지문과 GPT생성 지문을 상대평가로 점수를 매겨주십시오.
수능 지문의 점수를 매기고 GPT 생성 지문의 점수를 매겨주세요.

{passage_A}

{passage_B}

## 결과 출력 형식
- 평가 결과에 대한 이유와 비교 결과도 함께 제시해 주십시오.
- 5점 미만인 항목에 대해 보완점도 제시해 주십시오
- 출력 형식은 아래의 예시를 참고하세요

-예시)
수능 지문 | 모든 기준 5점
어휘 수준: ** 5점 **
이유: 어휘 사용이 매우 적절하고 풍부하여 고등학생들이 자연스럽게 이해하고 학습에 도움이 됨

유창성: ** 5점 **
이유: 뛰어난 유창성과 논리적 연결로 고등학생들이 쉽게 이해하고 몰입할 수 있음

주장의 입체성: ** 5점 **
이유: 주장이 매우 입체적으로 전개되어 고등학생들이 깊이 있는 사고와 분석을 할 수 있게 함

길이: ** 5점 **
이유: 지문의 길이가 최적화되어 고등학생들이 충분히 읽고 깊이 있는 사고를 할 수 있는 이상적인 분량임 (1501자 이하)

GPT 생성 지문 |
어휘 수준: ** 4점 **
이유: 어휘가 다양하고 풍부하여 고등학생들의 어휘력 향상에 크게 기여함
비교: 수능 지문는 어휘 사용이 매우 풍부하고 다양하여 학습에 최적인 반면, GPT 생성 지문도 우수하지만 약간 덜 다양함
보완점: 일부 전문 용어를 추가하여 어휘 수준을 더욱 향상시킬 수 있음

유창성: ** 4점 **
이유: 문장 구성이 매우 매끄럽고 자연스러워 읽는 흐름이 좋음
비교: 수능 지문는 유창성과 논리적 연결이 뛰어나 몰입도가 매우 높았으며, GPT 생성 지문도 거의 유사하게 우수함
보완점: 문장 연결을 더욱 강화하여 유창성을 수능 지문와 동일하게 맞출 수 있음

주장의 입체성: ** 4점 **
이유: 주장이 다양한 관점에서 심도 있게 다루어져 사고의 폭을 넓힘
비교: 수능 지문는 주장이 매우 입체적으로 전개되어 깊이 있는 사고를 유도하는 반면, GPT 생성 지문도 훌륭하지만 약간의 추가적인 관점이 있을 수 있음
보완점: 추가적인 관점을 포함하여 주장의 입체성을 더욱 강화할 수 있음

길이: ** 4점 **
이유: 지문의 길이가 충분하여 심도 있는 이해와 사고를 유도함 (1201~1500자)
비교: 수능 지문는 길이가 최적화되어 이상적인 분량인 반면, GPT 생성 지문도 적절하지만 약간 짧아질 수 있음
보완점: 상세한 예시를 추가하여 지문의 내용을 더욱 풍부하게 만들 수 있음(1501자 이하)

## 위 지침에 따라, 긍정적으로 지문을 살펴보시고 평가 기준에 맞추어 점수를 매긴 뒤,
점수가 만점에 미치지 못하면 개선을 위한 제언을 함께 제시해 주십시오.

감사합니다.

"""

 

E. 문제 평가 Prompt

E.1 문제 긍정형 평가 Prompt

positive_question_eval_template = """

안녕하세요! 저는 학생들의 학습 동기를 북돋우는 ‘긍정 평가 전문가’입니다.
수능 기출 지문과 수능 기출 문제는 모든 기준에서 5점으로 충족하는 이상적인 지문입니다. 수능 기출 문제와 비교하여 GPT 생성 문제를 평가해 주세요.
아래 [평가 기준]에 따라 지문을 꼼꼼히 읽고 문제를 푼 후, GPT 생성 문제를 평가해 주세요.

{passage_A}

{question_A}

{passage_B}

{question_B}

### 평가 기준 (5점 척도)

1. 난이도
   - 질문: 해당 문제가 지나치게 어렵거나 쉽지 않은가? 고등학생 수준에서 변별도가 충분한가?
   - 점수 기준:
     - 1점: 지나치게 쉽거나 어려워 학습 효과가 미흡함
     - 5점: 지문의 핵심을 정확히 이해해야만 해결 가능한 적절한 난이도와 변별도를 지님

2. 객관성
   - 질문: 정답 시비의 여지가 있는가? 관점이나 해석 차이로 인해 정답이 달라지지 않는가?
   - 점수 기준:
     - 1점: 모호하거나 중복된 문제가 있어 정답이 명확하지 않음
     - 5점: 독창적이며 한 가지 정답을 분명히 유도, 타 자료와 중복 없이 출제됨

3. 관련성
   - 질문: 보기 및 문제 내용이 지문과 얼마나 긴밀히 연결되는가? 지문을 읽지 않고 풀 수 없는가?
   - 점수 기준:
     - 1점: 지문을 참고하지 않아도 쉽게 답을 찾거나 지문과 무관한 보기 제시
     - 5점: 지문을 주의 깊게 분석하지 않으면 풀기 어려운 적절히 연계된 문제

4. 매력도
   - 질문: 학생이 문제 풀이에 흥미를 느끼도록 오답 선택지가 충분히 고민하게 만드는가?
   - 점수 기준:
     - 1점: 오답지가 지나치게 뻔하거나 문제 자체의 매력이 부족함
     - 5점: '혹시 이게 답이 아닐까?'라고 생각하게 만드는 그럴듯한 오답과 흥미로운 문제 구성

### 결과 출력 형식
- 수능 기출 문제는 모든 기준에서 5점을 받습니다.
- GPT 생성 문제를 각각 평가하세요. (예: 난이도: 3점, 이유: ..., 보완점: ...)
- 각 평가 기준(난이도, 객관성, 관련성, 매력도)에 대해 5점 만점으로 점수를 매기고, 5점 미만인 경우 보완점을 제안해 주세요.

### 예시

수능 기출 문제는 모든 기준에서 5점을 받습니다.

- 난이도: ** 5점 **
  - 이유: 지문의 핵심 내용을 정확히 이해해야만 해결할 수 있는 적절한 난이도를 가지고 있습니다.
  - 보완점: 해당 없음

- 객관성: ** 5점 **
  - 이유: 정답이 명확하게 유도되며, 해석의 여지가 전혀 없습니다.
  - 보완점: 해당 없음

- 관련성: ** 5점 **
  - 이유: 문제와 보기가 지문의 내용을 밀접하게 반영하고 있어 지문을 반드시 참조해야 합니다.
  - 보완점: 해당 없음

- 매력도: ** 5점 **
  - 이유: 오답 선택지가 그럴듯하게 구성되어 있어 학생들이 신중하게 고민하게 만듭니다.
  - 보완점: 해당 없음

GPT 생성 문제 평가:

- 난이도: ** 4점 **
  - 이유: 핵심 개념을 이해해야 하지만 약간의 추가 지식이 필요함
  - 보완점: 문제의 난이도를 약간 낮추어 더 많은 학생들이 접근할 수 있도록 조정하면 좋겠다.

- 객관성: ** 5점 **
  - 이유: 정답이 명확하며 해석의 여지가 없음
  - 보완점: 해당 없음

- 관련성: ** 4점 **
  - 이유: 지문과 관련이 높지만 일부 보기가 다소 지문과 떨어져 있음
  - 보완점: 모든 보기가 지문과 직접적으로 연결되도록 수정하면 좋겠다.

- 매력도: ** 3점 **
  - 이유: 오답 선택지가 그럴듯하지만 흥미를 유발하기에는 부족함
  - 보완점: 오답 선택지를 더 창의적이고 흥미롭게 구성하면 학생들의 흥미를 더욱 끌 수 있음

## 평가를 진행할 때 유의 사항
- 지문을 먼저 집중해서 읽은 후 문제를 풀이해 주세요.
- 학생들이 이 문제를 통해 사고력을 기를 수 있도록 긍정적인 제안을 아끼지 말아 주세요.
- 추가 요청이 있으면 언제든지 말씀해 주세요!
"""

 

E.2 문제 부정형 평가 Prompt

negative_question_eval_template = """
안녕하세요. 저는 학생들의 학습 동기를 엄격하게 평가하는 ‘엄격한 평가 전문가’입니다.
수능 기출 지문은 모든 기준에서 5점으로 충족하는 이상적인 지문입니다. 수능 기출 문제와 비교하여 GPT 생성 문제를 평가해 주세요.
아래 [평가 기준]에 따라 지문을 면밀히 검토하고 문제를 풀이한 후, GPT 생성 문제를 엄격하게 평가해 주세요.

{passage_A}

{question_A}

{passage_B}

{question_B}

### 평가 기준 (5점 척도)

1. 난이도
   - 질문: 해당 문제가 지나치게 어렵거나 너무 쉬운가? 고등학생 수준에서 충분한 변별력을 제공하는가?
   - 점수 기준:
     - 1점: 문제의 난이도가 적절하지 않아 학습 효과가 현저히 떨어짐
     - 5점: 지문의 핵심을 정확히 이해해야만 해결 가능한 매우 적절한 난이도와 뛰어난 변별도를 지님

2. 객관성
   - 질문: 정답의 명확성이 부족한가? 다양한 해석이 가능하여 정답이 불분명한가?
   - 점수 기준:
     - 1점: 문제 자체가 모호하거나 중복되어 정답이 명확하지 않음
     - 5점: 정답이 단 하나로 명확히 유도되며, 어떤 해석의 여지도 전혀 없음

3. 관련성
   - 질문: 보기 및 문제 내용이 지문과 얼마나 밀접하게 연결되는가? 지문을 참고하지 않고도 풀 수 있는가?
   - 점수 기준:
     - 1점: 지문과 무관한 내용이 포함되어 있거나, 지문을 참고하지 않아도 쉽게 답을 찾을 수 있음
     - 5점: 지문을 철저히 분석하지 않으면 풀기 어려운, 지문과 매우 밀접하게 연계된 문제

4. 매력도
   - 질문: 학생이 문제 풀이에 흥미를 느끼도록 오답 선택지가 충분히 도전적이고 설득력 있는가?
   - 점수 기준:
     - 1점: 오답 선택지가 너무 뻔하거나 문제 자체가 흥미를 유발하지 못함
     - 5점: 오답 선택지가 매우 설득력 있고, 학생들이 신중하게 고민하게 만드는 높은 매력도를 지님

### 결과 출력 형식
- 수능 기출 문제는 모든 기준에서 5점을 받습니다.
- GPT 생성 문제를 평가하세요. (예: 난이도: 2점, 이유: ..., 보완점: ...)
- 각 평가 기준(난이도, 객관성, 관련성, 매력도)에 대해 5점 만점으로 점수를 매기고, 4점 이하인 경우 구체적인 보완점을 제안해 주세요.

### 예시

수능 기출 문제는 모든 기준에서 5점을 받습니다.

- 난이도: ** 5점 **
  - 이유: 지문의 핵심 내용을 정확히 이해해야만 해결할 수 있는 매우 적절한 난이도를 가지고 있습니다.
  - 보완점: 해당 없음

- 객관성: ** 5점 **
  - 이유: 정답이 단 하나로 명확히 유도되며, 해석의 여지가 전혀 없습니다.
  - 보완점: 해당 없음

- 관련성: ** 5점 **
  - 이유: 문제와 보기가 지문의 내용을 철저히 반영하고 있어 지문을 반드시 참조해야 합니다.
  - 보완점: 해당 없음

- 매력도: ** 5점 **
  - 이유: 오답 선택지가 매우 설득력 있게 구성되어 있어 학생들이 신중하게 고민하게 만듭니다.
  - 보완점: 해당 없음

GPT 생성 문제 평가:

- 난이도: ** 2점 **
  - 이유: 문제의 난이도가 너무 낮아 학습 효과가 미흡함
  - 보완점: 문제의 난이도를 높여 학생들이 더 깊이 있는 사고를 할 수 있도록 조정 필요

- 객관성: ** 3점 **
  - 이유: 정답의 명확성이 다소 부족하여 일부 학생들이 혼란을 겪을 수 있음
  - 보완점: 정답을 보다 명확히 유도할 수 있도록 문제를 재구성할 것

- 관련성: ** 2점 **
  - 이유: 문제와 보기가 지문과의 연계성이 낮아 지문을 참조하지 않고도 풀 수 있음
  - 보완점: 모든 보기가 지문의 내용을 직접적으로 반영하도록 수정할 것

- 매력도: ** 1점 **
  - 이유: 오답 선택지가 너무 뻔하여 학생들의 흥미를 유발하지 못함
  - 보완점: 오답 선택지를 더 창의적이고 도전적으로 구성하여 학생들의 관심을 끌 것

## 평가를 진행할 때 유의 사항
- 지문을 철저히 읽은 후 문제를 풀이해 주세요.
- 학생들이 이 문제를 통해 비판적 사고력을 기를 수 있도록 구체적이고 엄격한 피드백을 제공해 주세요.
- 추가 요청이 있으면 언제든지 말씀해 주세요!
"""

 

F. 재생성 Prompt

F.1 지문 재생성 Prompt

remake_passage_template = """
당신은 한국 수능 비문학에 대한 국어 교육 전문가입니다.
정확하고 엄밀한 논리 구조를 갖춘 비문학 지문을 작성해야합니다.

기존 지문의 평가 내용을 반영하여 새롭게 지문을 재작성하세요.

# 기존 지문
{passage}

# 평가 내용
{passage_feedback}

# 요청 사항
위 지문을 수능 비문학 지문 형식에 맞게 적절히 수정해 주세요.

# 최종 출력 양식
수정된 지문
간단한 수정 근거(2~4줄)
"""

 

F.2 문제 재생성 Prompt

remake_probs_template = """
당신은 한국 수능 비문학에 대한 국어 교육 전문가입니다.
정확하고 엄밀한 논리 구조를 갖춘 비문학 문제를 작성해야합니다.

기존 지문에 관한 문제의 평가 내용을 반영하여 새롭게 문제를 재작성하세요.

# 기존 지문
{passage}

# 기존 문제
{prob}

# 평가 내용
{prob_feedback}

# 요청 사항
위 문제를 수능 비문학 문제 형식에 맞게 적절히 수정해 주세요.

# 최종 출력 양식
수정된 문제
간단한 수정 근거(2~4줄)
"""

 

G. CoT 지문 생성 Prompt

"""
[Prompt 1]
지문의 주제를 설정해주십시오.

1. 영역별 주제 설정
아래의 영역 중 우주[입력된 소재]에 가장 적합한 영역 하나를 골라, 우주에 대한 주제를 설정하십시오. 

인문∙사회: 우주의 철학적·역사적 의미, 사회·문화적 시사점 등
과학∙기술: 우주의 생성 원리, 우주 탐사 기술, 물리학적 원리 등
문학∙예술: 우주의 미적·예술적 표현, 우주를 다룬 문학 작품 등
생활∙언어: 일상생활에서 느끼는 우주적 관점, 우주와 관련된 언어·상징 등

[prompt 2] 

2. 1500자 내외의 수능 지문을 작성해주십시오. 

아래는 내용 작성 시 유의 사항입니다. 
- 주장이나 논리가 입체적으로 전개될 수 있도록 서술해 주세요.
- 교육적으로 활용할 수 있는 내용이 되도록, 특정 집단·종교·지역을 근거 없이 비방하거나 민감한 정치적·사회적 갈등을 일방적으로 다루는 것은 피해주세요.
- 학계에서 검증되지 않은 내용을 마치 정설인 것처럼 서술하지 말아 주십시오.
- 문장 표현이나 어휘 사용 시, 국어 어법과 맞춤법을 준수해 주십시오.

아래는 실제 수능 출제 지문입니다. 지문의 형식과 전개 방식을 참고해주십시오. 
[지문 예시1]
1950년대 프랑스의 영화 비평계에는 ㉠ 작가주의라는 비평 이론이 새롭게 등장했다. 작가주의란 감독을 단순한 연출자가 아닌 ‘작가’로 간주하고, 작품과 감독을 동일시하는 관점을 말한다. 이 이론이 대두될 당시, 프랑스에는 유명한 문학 작품을 별다른 손질 없이 영화화하거나 화려한 의상과 세트, 인기 연극배우에 의존하는 제작 관행이 팽배해 있었다. 작가주의는 이렇듯 프랑스 영화에 만연했던 문학적, 연극적 색채에 대한 반발로 주창되었다.
작가주의는 상투적인 영화가 아닌 감독 개인의 영화적 세계와 독창적인 스타일을 일관되게 투영하는 작품들을 옹호한다. 감독의 창의성과 개성은 작품 세계를 관통하는 감독의 세계관 혹은 주제 의식, 그것을 표출하는 나름의 이야기 방식, 고집스럽게 되풀이되는 특정한 상황이나 배경 혹은 표현 기법 같은 일관된 문체상의 특징으로 나타난다는 것이다.
한편, 작가주의적 비평은 영화 비평계에 중요한 영향을 끼쳤는데, 그중에서도 주목할 점은 ⓐ 할리우드 영화를 재발견한 것이다. 할리우드에서는 일찍이 미국의 대량 생산 기술을 상징하는 포드 시스템과 흡사하게 제작 인력들의 능률을 높일 수 있는 표준화․분업화한 방식으로 영화를 제작했다. 이에 따라 재정과 행정의 총괄자인 제작자가 감독의 작업 과정에도 관여하게 되었고, 감독은 제작자의 생각을 화면에 구현하는 역할에 머물렀다. 이는 계량화가 불가능한 창작자의 재능, 관객의 변덕스런 기호 등의 변수로 야기될 수 있는 흥행의 불안정성을 최소화하면서 일정한 품질의 영화를 생산하기 위함이었다.
그러나 ⓑ 작가주의적 비평가들은 할리우드라는 가장 산업화된 조건에서 생산된 상업적인 영화에서도 감독 고유의 표지를 찾아낼 수 있다고 보았다. 작가주의적 비평가들은 제한적인 제작 여건이 오히려 감독의 도전 의식과 창의성을 끌어낸 사례들에 주목한 것이다. 그에 따라 B급 영화*와 그 감독들마저 수혜자가 되기도 했다.
작가주의적 비평가들에 의해 복권된 대표적인 할리우드 감독이 바로 스릴러 장르의 거장인 히치콕이다. 히치콕은 제작 시스템과 장르의 제약 속에서도 일관된 주제 의식과 스타일을 관철한 감독으로 평가받았다. 히치콕은 관객을 오인에 빠뜨린 뒤 막바지에 진실을 규명하여 충격적인 반전을 이끌어 내는 그만의 이야기 도식을 활용하였다. 또한 그는 관객의 오인을 부추기는 ‘맥거핀’ 기법을 자신만의 이야기 법칙을 만들어 가는 데 하나의 극적 장치로 종종 활용하였다. 즉 특정 소품을 맥거핀으로 활용하여 확실한 단서처럼 보이게 한 다음 일순간 허망한 것으로 만들어 관객을 당혹스럽게 한 것이다.
이처럼 할리우드 영화의 재평가에 큰 영향을 끼쳤던 작가주의의 영향력은 오늘날까지도 이어지고 있다. 예컨대 작가주의로 인해 ‘좋은’ 영화 혹은 ‘위대한’ 감독들이 선정되었고, 이들은 지금도 영화 교육 현장에서 활용되고 있다.

[지문 예시2]
지문(指紋)은 손가락의 진피로부터 땀샘이 표피로 융기되어 일정한 흐름 모양으로 만들어진 것으로 솟아오른 부분을 융선, 파인 부분을 골이라고 한다. 지문은 진피 부분이 손상되지 않는 한 평생 변하지 않는다. 이 때문에 홍채, 정맥, 목소리 등과 함께 지문은 신원을 확인하기 위한 중요한 생체 정보로 널리 사용되고 있다.지문 인식 시스템은 등록된 지문과 조회하는 지문이 동일한지 판단함으로써 신원을 확인하는 생체 인식 시스템이다. 지문을 등록하거나 조회하기 위해서는 지문 입력 장치를 통해 지문의 융선과 골이 잘 드러나 있는 지문 영상을 얻어야 한다. 
지문 입력 장치는 손가락과의 접촉을 통해 정보를 얻는데, 이때 지문의 융선은 접촉면과 닿게 되고 골은 닿지 않는다. 따라서 지문 입력 장치의 융선과 골에 대응하는 빛의 세기, 전하량, 온도와 같은 물리량에 차이가 발생한다.㉠광학식 지문 입력 장치는 조명 장치, 프리즘, 이미지 센서로 구성되어 있다. 프리즘의 반사면에 손가락을고정시키면 융선 부분에 묻어 있는 습기나 기름이 반사면에 얇은 막을 형성한다. 조명에서 나와 얇은 막에 입사된 빛은 굴절되거나 산란되어 약해진 상태로 이미지 센서에 도달한다. 
골 부분은 반사면에 닿아 있지 않으므로 빛이 굴절, 산란되지 않고 반사되어 센서에 도달한다. 이미지 센서는 빛의 세기를 디지털 신호로 변환하여 지문 영상을 만든다. 이 장치는 지문이 있는 부위에 땀이나 기름기가 적은 건성 지문인 경우에는 온전한 지문 영상을 획득하기 어렵다.㉡정전형 센서식 지문 입력 장치는 미세한 정전형 센서들을 촘촘하게 배치한 판을 사용한다. 이 판에는 전기가 흐르고 각 센서마다 전하가 일정하게 충전되어 있다. 판에 손가락이 닿으면 전하가 방전되어 센서의 전하량이 줄어든다. 이때 융선이 접촉된 센서와 그렇지 않은 센서는 전하량에 차이가 생기는데, 
각 센서의 전하량을 변환해 지문 영상을 얻는다.㉢초전형 센서식 지문 입력 장치는 인체의 온도 변화를 감지하는 여러 개의 작은 초전형 센서를 손가락의 폭에 해당하는 길이만큼 일렬로 배치해서 사용한다. 이 센서는 온도가 변할 때에만 신호가 발생하는 특성이 있다. 센서가 늘어선 방향과 직각 방향으로 손가락을 접촉시킨 채 이동시키면, 접촉면과 지문의 융선 사이에 마찰열이 발생하여 융선과 골에 따라 센서의 온도가 달라진다. 이때 발생하는 미세한 온도 변화를 센서가 감지하고 이에 해당하는 신호를 변환하여 연속적으 로 저장해 지문 영상을 얻는다. 
이 장치는 다른 지문 입력 장치보다 소형화할 수 있어 스마트폰과 같은 작은 기기에 장착할 수 있다.ⓐ일반적으로 생체 인식 시스템에서는 ‘생체 정보 수집’, ‘전처리’, ‘특징 데이터 추출’, ‘정합’의 과정을 거치는데 지문 인식 시스템도 이를 따른다. 생체 정보 수집 단계는 지문 입력 장치를 사용하여 지문 영상을 얻는 과정에 해당한다. 전처리 단계에서는 지문 형태와 무관한 영상 정보를 제거하고 지문 형태의 특징이 부각되도록 지문 영상을 보정한다. 특징 데이터 추출단계에서는 전처리 단계에서 보정된 영상으로부터 각 지문이 가진 고유한 특징 데이터를 추출한다. 
특징 데이터로는 융선의 분포 유형, 융선의 위치와 연결 상태 등이 사용된다. 정합 단계에서는 사전에 등록되어 있는 특징 데이터와 지문 조회를 위해 추출된 특징 데이터를 비교하여 유사도를 계산한다. 이 값이 기준치보다 크면 동일한 사람의 지문으로 판정한다.

[Prompt 3]
생성한 지문에 대한 오지선다형 문제를 출제해주십시오.

아래 문제 유형과 예시를 참고해주십시오.
- 어휘∙어법 관련: 지문의 특정 어휘(또는 표현) 의미 묻기, 혹은 적절한 문법적 형태 고르기 등

- 사실적 사고: 지문에서 제시된 정보·사실을 이해·요약하는 문제
예시: 윗글을 바탕으로 할 때, 답으로 적절하지 않은 것은?
예시: 윗글을 바탕으로 할 때, 지문의 내용과 일치하지 않은 것은?

- 추론적 사고: 문맥적, 논리적 관계를 분석하여 결론을 도출하거나 다음 전개를 추측하게 하는 문제
예시: 윗글을 바탕으로 추론한 내용으로 적절하지 않은 것은? 

- 비판적 사고: 지문 속 필자의 주장이나 예시에 대한 적절성·타당성을 평가하는 문제
예시: 지문에 나타난 생각으로 적절하지 않은 것은? 
예시: 주제에 나타난 개념을 적용한 것으로 적절하지 않은 것은? 

아래는 실제 수능 출제 지문입니다. 아래 문제의 형식과 구조를 참고해 주십시오.
1. 윗글에 대한 설명으로 가장 적절한 것은?
①작가주의에서 쟁점이 되는 부분을 시간의 흐름에 따라 설명하고 있다.
②작가주의의 문제점을 제시한 뒤 그것이 해결되는 과정을 설명하고 있다.
③작가주의와 그에 대립하는 비평 이론을 구체적인 예를 통해 서로 비교하고 있다.
④작가주의의 개념을 설명한 뒤 구체적인 사례와 관련지어 그 의의를 소개하고 있다.
⑤작가주의가 영화 비평계에 끼친 영향력을 분석하고 그것을 넘어서는 새로운 관점을 소개하고 있다.

2. 윗글의 내용과 일치하지 않는 것은?
①맥거핀은 관객에게 사건의 배경을 극적으로 제시해 주는 촬영 기법을 말한다.
②작가주의는 좋은 영화와 위대한 감독을 선정하는 새로운 근거를 제시하였다.
③프랑스 영화의 문학적, 연극적 색채에 대한 반발로 작가주의가 등장하게 되었다.
④할리우드에서 제작자의 권한을 강화한 것은 흥행의 안정성을 고려했기 때문이다.
⑤할리우드에서는 제작의 효율성을 위해 제작 인력들 간의 역할과 임무를 구분하였다.

3. ⓐ, ⓑ에 대한 설명으로 적절한 것은?
①ⓐ의 제작에서는 관객의 기호를 흥행의 변수로 보지 않았다.
②ⓑ는 상업적인 영화보다는 상투적인 영화를 옹호하고자 하였다.
③ⓑ는 히치콕의 작품들에 숨어 있는 흥행의 공식을 영화 제작에 활용하였다.
④ⓑ는 ⓐ에서도 감독의 개성을 발견할 수 있다고 보았다.
⑤ⓑ는 ⓐ를 재평가하는 과정에서 B급 영화는 평가 대상에서 제외하였다.

4. 윗글의 ㉠과 <보기>의 ㉡의 입장을 비교하여 설명한 것으로 적절하지 않은 것은?
①㉠은 ㉡보다 감독의 주제 의식을 중시한다.
②㉠은 ㉡보다 감독의 표현 기법의 일관성을 중시한다.
③㉠은 ㉡보다 영화 창작 과정에서 감독의 권한을 중시한다.
④㉡은 ㉠에 비해 영화 제작 과정에서 경제적 여건과 기술적 조건을 중시한다.
⑤㉡은 ㉠에 비해 감독의 역량을 영화 제작에 참여하는 인력들의 역량보다 중시한다.
"""

 

H. 긍정 평가 Prompt를 활용한 점수 분포

Figure12. 긍정형 프롬프트를 사용한 지문별 최종 평가 점수 비교 결과
Figure13. 긍정형 프롬프트를 사용한 문제별 최종 평가 점수 비교 결과