2025.01.13 - [[Deep daiv.]/[Deep daiv.] NLP] - [Deep daiv.] NLP, 논문 리뷰 - A Survey on LLM-as-a-Judge
https://arxiv.org/abs/2411.15594
(이전 글에서 이어집니다.)
Improvement Strategy.
LLM을 점수화, 선택, 쌍별 비교 또는 순위 매기기와 같은 평가 작업에 직접 활용할 떄, LLM 고유의 편샹(예: 길이 편향, 위치 편향, 구체성 편향)은 열악한 평가 결과를 초래할 수 있습니다. 이러한 고유한 편향을 해결하고 전반적인 평가 성능을 향상시키는 것은 LLM을 평가자로 적용하는 데 중요한 과제입니다.
본 섹션에서는 LLM-as-a-judge의 평가 성능을 향상시키기 위한 세 가지 개선 전략을 소개합니다:
- 평가 프롬프트 디자인 전략(Design Strategy of Evaluation Prompts)
- LLM의 평가 능력 향상 전략(Improvement Strategy of LLM's Evaluation Capabilities)
- 최종 평가 결과 최적화 전략(Optimization Strategy of Final Evaluation Results)
이 분류에서는 섹션 2에서 제시된 LLM-as-a-judge의 공식 정의를 기반으로 하며, 평가 과정의 세 가지 주요 단계에 초점을 맞춥니다:
- 문맥 C(평가 프롬프트 디자인)
- LLM 자체의 능력(모델 기반 개선)
- 후처리(최종 결과 E 도출)
이 세 가지를 개선함으로써 전체 평가 효과성을 높일 수 있습니다.
Design Strategy of Evaluation Prompts
평가 프롬프트는 LLM 평가자에게 주어지는 입력으로, LLM이 요구되는 평가작업을 수행하도록 안내하는 역할을 합니다. LLM은 프롬프트에 제공된 관련 예시나 지침을 통해 지정된 작업 수행 방법을 학습하는 ICL학습 능력을 갖추고 있습니다. 이는 가중치 업데이트나 재훈련 없이도 가능합니다.
따라서 평가 프롬프트의 디자인 전략은 LLM-as-a-judge의 효과성에 큰 영향을 미칩니다. 평가 프롬프트 디자인을 최적화하는 방법, 즉 LLM이 평가 작업을 더 잘 이해하고 평가 결과를 산출하도록 돕는 더 나은 방법을 찾는 것이 LLM-as-a-judge의 평가 성능을 개선하는 가장 직접적이고 효과적인 방법입니다.
Optimizing LLM's Understanding of Evaluation Tasks
LLM이 평가 작업을 더 잘 이해하도록 프롬프트를 최적화하는 방법 중 가장 일반적이고 효과적인 접근 방식 중 하나는 Few-shot 프롬프트입니다. 고품질의 평가 예시 몇개를 평가 프롬프트에 포함함으로써, LLM 평가자는 평가 작업의 목표, 일반적인 프로세스, 대략적인 평가 기준을 효과적으로 파악할 수 있습니다. 많은 연구에서는 FActScore, SALAD-Bench, GPTScore와 같이 이 프롬프트 패러다임을 평가에 활용하고 있습니다.
고품질 예시를 제공하는 것 외에도, 평가 작업 지침을 세분화하는 것도 LLM의 평가 작업 이해를 최적화하는 효과적인 방법입니다. 현재 평가 작업 세분화 방법은 주로 평가 단계와 기준의 분해로 나뉩니다:
- 평가 단계의 분해(Decomposition of Evaluation Steps)
- 평가 단계를 분해: 전체 평가 작업을 더 작은 단계들로 나누고, 각 작은 단계에 대해 자세한 정의와 제약 조건을 프롬프트에 제공합니다. 이를 통해 LLM이 전체 평가 파이프라인을 포괄적으로 안내받을 수 있습니다.
- 예시:
- GEval과 DHP는 CoT방식을 사용해 LLM을 안내합니다.
- SocREval은 소크라테스식 방법을 사용하여 각 단계를 세밀하게 설계해 평가 성능을 향상시킵니다.
- BSM(Branch-Solve-Merge)는 평가 작업을 여러 병렬 하위 작업으로 나누어 각각 평가한 후 최종 병합하는 방법을 제안합니다
- 평가 기준의 분해(Decomposition of Evaluation Criteria)
- 평가 기준을 분해: 유창성(Fluency)과 같은 거친 평가 기준을 문법(Grammer), 흥미도(Engagingness), 가독성(Readability) 등과 같이 세분화된 하위 기준으로 나누고, 이러한 여러 차원에 기반하여 종합 점수를 산출합니다.
- 예시:
- HD-Eval은 계층적 기준 분해를 통해 LLM 평가자를 인간 선호에 맞추어 정렬시키며, LLM의 잠재적 편향 문제를 해결합니다.
이러한 세분화는 LLM이 평가 작업의 세부 사항을 더 깊이 이해하도록 하여, 평가 결과를 인간의 평가 요구와 선호에 더 가깝게 정렬시킵니다.
또한, LLM의 편향 해결을 위한 프롬프트의 조정방법은 다음과 같습니다:
- 위치 편향(Position Bias): 쌍별 평가 시 흔한 문제인 위치 편향을 해결하기 위해, 평가할 내용을 무작위로 바꾸어 프롬프트 디자인을 최적화하는 연구들이 있습니다.
- 예를 들어, Wang et al. 은 위치 편향이 LLM-as-a-judge에 미치는 영향을 분석하고, 내용을 교환하고 점수를 평균화하는 보정 프레임워크를 제안합니다.
- Auto-J와 JudgeLM은 평가 일관성을 높이기 위해 평가할 텍스트를 섞는 방식을 사용합니다.
- PandaLM은 위치 편향을 해결하기 위해 내용을 교환한 후 충돌하는 평가 결과를 "Tie"로 표시합니다.
- 절대 점수의 문제: LLM의 절대 점수가 상대 비교만큼 강력하지 않다는 문제를 해결하기 위해, 일부 연구는 점수 평가 작업을 쌍별 비교로 전환합니다.
- Liu et al. 은 점수 평가를 순위 평가로 변환하고, Pairwise-Preference Search(PARIS)를 도입하여 LLM이 로컬에서 쌍별 비교를 수행하고 후보 텍스트를 글로벌하게 효율적으로 순위화하도록 하여, 평가 결과를 인간 선호와 더 잘 맞춥니다.
요약하자면, 평가 작업을 더 잘 이해하도록 LLM을 돕는 프롬프트 디자인은 LLM의 ICL능력을 최적화하는 핵심 방법입니다. 고품질의 예시를 통한 Few-shot 프롬프트, 평가 작업 단계 및 기준의 세분화는 평가 프롬프트의 세부 사항을 풍부하게 하고, LLM이 평가 작업을 더 잘 이해하도록 직접적 또는 간접적으로 향상시킵니다. 또한, 프롬프트에 대한 대상 조정을 통해 위치 편향과 같은 LLM의 잠재적 편향을 해결할 수 있습니다.
Optimizing LLM's Output Forms
LLM 평가자가 평가 결과를 직접 출력하도록 요구할 때, 견고성(robustness) 문제가 발생합니다. LLM의 내재적 생성 랜덤성으로 인해, 점수 형태로 측정하도록 요청받았음에도 "낮은 관련성"과 같은 텍스트를 출력하는 등 응답 텍스트가 예기치 않게 달라질 수 있습니다. 이는 LLM 출력에서 평가 결과를 자동으로 정확하게 추출하는 데 방해가 됩니다. *temperature 0으로 설정하면 일관성을 유지하는데 도움이 되지 않을까?
해결 방법: 출력 형식 구조화
출력 형식의 견고성을 향상시키는 효과적인 방법은 프롬프트 내에서 LLM 출력물을 구조화된 형식으로 제한하는 것입니다.
- 형식 채우기(form-filling) 패러다임:
- G-Eval과 DHP 프레임워크는 "X: Y"와 같은 형식으로 출력을 제한하여 평가 작업을 수행합니다. 여기서 X는 평가할 차원이나 지표를 나타내고, Y는 점수나 특정 토큰과 같은 식별 가능한 출력 형식을 뜻합니다.
- LLM-EVAL은 이 형식 채우기 패러다임을 수정하여 JSON 형식으로 평가 결과를 효율적으로 출력하고, 다차원 점수를 획득합니다. 이는 코드와 유사한 텍스트 형식에 대한 LLM의 높은 이해 및 생성 능력을 활용합니다.
출력 견고성 이외의 문제점: 해석 가능성 부족
LLM이 평가 결과를 직접 출력할 때 또 다른 문제는 해석 가능성이 떨어진다는 점입니다. LLM 평가자의 평가 결과 의미는 프롬프트에 제공된 지시사항 및 메트릭과 일치시키기 어렵습니다.
- 해결 사례:
- CLAIR: LLM이 0-100 사이의 평가 점수를 출력할 때, 관련 이유를 JSON 형식으로 함께 출력하도록 요구합니다. 이를 통해 점수의 합리성과 해석 가능성을 높입니다.
- FLEUR: LLaVA를 이용해 이미지 캡션의 품질 점수를 먼저 제공하고, 그 이후 "왜 그렇습니까? 이유를 알려주세요." 라고 질문하여, 이미지, 캡션, 점수를 입력으로 하여 설명을 요청합니다. 이는 해석 가능한 점수를 제공하기 위한 단계적 접근 방식입니다.
요약하자면, 프롬프트 내에서 LLM 평가자의 출력 과정과 형식을 제한하거나 안내함으로써, 구조화된 출력을 통해 평가 결과의 견고성과 합리성을 효과적으로 향상시킬 수 있습니다. 이는 또한 이후 단계에서 평가 결과의 자동 후처리를 용이하게 하여 전체 평가 파이프라인의 안정성을 높입니다.
Improvement Strategy of LLM's Abilities
LLM의 평가 능력은 특정 프롬프트에 의해 촉발되는 강력한 일반 언어 이해 및 생성 능력의 반영입니다. 프롬프트 디자인을 통한 평가 최적화 방법은 LLM의 ICL능력에 중점을 두며, 프롬프트의 의미를 완전히 이해하고 관련 평가 지시를 일관되게 따르도록 요구합니다. 그러나 GPT-4와 같은 최신 LLM조차도 개념적 혼동등의 문제에 직면하고 있으며, 더 작은 오픈소스 LLM은 평가 능력에 한계가 있습니다. 따라서 메타 평가 데이터셋을 통한 LLM 파인튜닝 및 평가 결과 피드백을 기반으로 한 모델의 반복적 최적화 방법 등 LLM의 평가 능력을 향상시키는 방법은 LLM-as-a-judge의 기본 평가 성능 개선에 중요합니다.
Fine-tuning via Meta Evaluation Datasets
LLM의 평가 능력을 향상시키는 직접적인 접근법은 평가 작업을 위해 특별히 구축된 메타-평가 데이터셋으로 LLM을 파인튜닝하는 것입니다. 이는 LLM이 특정 평가 프롬프트를 더 잘 이해하고, 평가 성능을 높이며, 잠재적 편향을 해결하는 데 도움을 줍니다.
핵심 단계: 데이터 수집 및 구축
가장 중요한 단계는 학습 데이터의 수집 및 구축입니다.
- 일반적인 방법:
- 공개 데이터셋에서 평가 질문을 샘플링하고, 특정 템플릿으로 수정하여 평가 데이터를 구축합니다.
- 평가 응답은 수동으로 생성하거나 GPT-4와 같은 강력한 LLM을 사용해 생성할 수 있습니다. *GPT-4의 생성에 대한 평가는 필요가 없는가?
- 예를 들어:
- PandaLM: Alpaca 52K 에서 입력과 지시사항을 샘플링하고 GPT-3.5를 사용해 응답을 생성하여 학습 데이터를 구축합니다.
- SALAD-Bench: LMSYS-Chat 과 Toxicchat 의 하위 집합에서 학습 데이터를 구축합니다.
- 타겟팅된 학습 데이터 구성:
- 공개 데이터셋에서 샘플링한 입력과 지시사항을 변환하여 평가 작업 요구에 더 부합하는 학습 데이터를 만듭니다.
- 예시:
- OffsetBias: GPT-4를 사용해 원본 입력의 주제에서 벗어난(off-topic) 버전을 생성하고, GPT-3.5가 새로운 입력에 대해 나쁜(bad) 응답을 생성하도록 합니다. 좋은 응답과 나쁜 응답을 쌍으로 구성하여 평가자로서 LLM을 파인튜닝하면, 길이 편향, 구체성 편향, 지식 편향 등 LLM의 편향을 크게 줄일 수 있습니다. *왜..? 비슷한 길이, 구체성, 지식을 갖는 good, bad 응답을 쌍으로 구성한다면 이러한 편향을 줄일 수 있겠다..
- JudgeLM: 참조 지원(reference support)과 참조 제거(reference drop)와 같은 패러다임을 통해 다양한 학습 데이터를 생성하여 LLM의 평가 능력을 향상시킵니다.
요약하자면, 특정 평가 작업을 목표로 하는 메타 평가 학습 데이터를 구축하고 LLM을 파인튜닝함으로써, 모델의 내부 파라미터화된 지식과 언어 능력을 직접 조정할 수 있습니다. 이는 LLM 평가자의 평가 성능을 개선하고 잠재적 편향을 해결하는 가장 직접적인 방법입니다.
Iterative Optimization Based on Feedback of Evaluation Results
메타-평가 데이터셋으로 LLM을 파인튜닝하면 인간 선호와 더 잘 맞는 평가를 생성할 수 있지만, 실제로 LLM-as-a-judge는 평가 과정에서 여전히 편향이 있을 수 있어 전체 평가 품질에 영향을 줄 수 있습니다. 자연스러운 개선 전략은 더 강력한 모델이나 인간 평가자가 평가 결과를 수정함으로써 얻은 피드백에 기반해 모델을 반복적으로 최적화하는 것입니다.
사례: INSTRUCTSCORE
이 스코어링 프레임워크는 모델 성능을 개선하고 최종 품직 점수 계산에 도움을 주기 위해 다음과 같은 과정을 거칩니다:
- 지표 출력의 실패 모드를 수집
- 각 실패 모드에 대해 GPT-4에 질의하여 자동 피드백 수집
- 인간 선호와 가장 일치하는 설명을 선택 (*인간 평가자가 개입하는 순간)
- 이를 바탕으로 LLaMA 모델을 반복적으로 파인튜닝
JADE
- INSTRUCSCORE와 달리, JADE의 LLM 평가자는 인간 판단자에게 LLM의 평가 결과를 수정하도록 의존합니다.
- 자주 수정되는 샘플을 Few-shot 프롬프트에 사용할 예시 집합에 업데이트하여 평가 능력을 반복적으로 향상시킵니다.
- 이 방법은 상대적으로 낮은 비용으로 평가 능력의 반복적 업데이트를 달성합니다.
피드백이 인간 선호와 더 밀접하게 맞춰져 있기 때문에, LLM 평가자는 이러한 피드백을 기반으로 평가 능력을 최적화할 때 인간과 동적으로 정렬될 수 있습니다. 이는 더 나은 평가 결과로 이어지며, 모델의 불완전한 일반화 문제를 해결하고 동적 업데이트를 통해 평가 능력을 향상시킵니다.
Optimization Strategy of Final Results
ICL과 모델 자체의 능력을 기반으로 최적화함으로써, LLM은 평가 작업의 요구를 이해하고 합리적인 평가 결과를 제공할 수 있는 꽤 신뢰할 수 있는 평가자가 되었습니다. 그러나 LLM 내부의 고유한 생성 랜덥성은 전체 평가 파이프라인에 상당한 불안정성을 초래하여 전체 평가 품질에 영향을 미칩니다. 따라서 LLM 평가자의 출력에서 최종 평가 결과로 이어지는 후처리 단계에서의 최적화 전략이 필요합니다.
이 섹션에서는 이러한 최적화 전략을 세 가지 유형으로 분류합니다:
- 다수 평가 결과 통합(Integration of multiple evaluation results)
- LLM 출력의 직접 최적화(Direct optimization of LLM's outputs)
- 평가 작업의 포인트와이즈 평가에서 쌍별 비교로의 전환(Conversion of evaluation tasks from pointwise evaluation to pairwise comparison)
Integration of Multiple Evaluation Results
동일한 콘텐츠에 대한 여러 평가 결과를 통합하여 최종 결과를 얻는 것은 다양한 실험 및 엔지니어링 파이프라인에서 흔히 사용되는 전략입니다. 이를 통해 우발적인 요인과 랜덤 오류의 영향을 줄일 수 있습니다.
기본 전략: 동일한 콘텐츠에 대해 다른 하이퍼파라미터와 설정으로 여러 번 평가를 수행한 후 결과를 요약하는 것입니다.
- Sottana et al. 은 동일한 샘플에 대한 여러 점수를 평균내어 평가의 랜덤성을 줄입니다.
- PsychoBench 는 열 번의 독립 시행에서 평균과 표준 편차를 계산합니다.
- Auto-J 는 시나리오 기준의 유무에 따른 비평을 결합해 평가 라운드 간 차이를 증폭시켜 최종 결과를 얻습니다.
여러 라운드 및 다수 평가자 활용: 여러 라운드 평가를 통합하는 것 외에도, 여러 LLM 평가자가 동시에 콘텐츠를 평가하고 그 결과를 통합하는 것도 효과적입니다.
- CPAD 는 ChatGLM-6B, Ziya-13B, ChatYuan-Large-v2 를 평가자로 사용하여 콘텐츠를 평가하고, 투표를 통해 최종 결과를 도출합니다.
- Bai et al. 는 LLM이 서로의 생성물을 평가하는 분산 동료 리뷰(Decentralized Peer Review of LLMs)라는 새로운 평가 방법을 제안하여 최종적으로 결과를 통합합니다.
이처럼 여러 번의 평가 라운드나 다수의 LLM 평가자를 결합하여 최종 평가 결과를 형성하면, 단일 라운드에서 발생하는 우발적 요인에 의한 랜덤 효과를 줄이고 단일 LLM 평가자의 잠재적 편향을 감소시킬 수 있습니다. 이러한 전략을 평가 결과의 안정성과 신뢰성을 크게 향상시킵니다.
Direct Optimization of LLM's Outputs
여러 번의 평가 라운드나 여러 LLM 평가자들의 출력을 기반으로 평가 결과를 얻는 것과는 달리, 단일 LLM 평가자의 출력을 직접 최적화하는 것은 평과 결과의 신뢰성을 높이기 위해 평가 출력을 추가로 처리하는 것을 포함합니다. 이는 특히 LLM 평가자의 점수 출력 시 유용합니다. LLM의 생성 랜덤성으로 인해 점수가 평가 기준을 완전히 반영하지 못할 수 있기 때문에, 보다 신뢰할 수 있는 평가 결과를 얻기 위해 LLM의 점수 출력을 최적화하는 것이 필요합니다.
효과적인 최적화 전략: 점수 스무딩(score smoothing)
예시: FLEUR
- LLaVA에서 생성된 점수의 경우, 각 숫자 l(0 ≤ l ≤ 9)에 해당하는 토큰의 확률을 가중치로 사용하여 명시적인 점수를 스무딩(smoothing)하고 최종 평가 점수를 계산합니다.
- 그러나 점수 스무딩과 같은 방법은 LLM이 오픈소스이거나 토큰 확률에 접근할 수 있는 인터페이스를 제공해야 하므로 몇 가지 한계가 있습니다.
또 다른 전략: 자기 검증(Self-verification)
예시: TrueTeacher
- TrueTeacher는 평가 결과의 충분한 견고성을 확인하기 위해 LLM 평가자에게 평가 결과에 대한 확신을 묻고, 자기 검증을 통과한 결과만 유지합니다. 이는 모든 LLM에 적합하며 복잡한 계산과 처리가 필요하지 않습니다.
요약하자면, 여러 번의 평가 결과를 통합하는 것과 비교할 때, LLM 출력의 직접 최적화를 통해 최종 결과를 얻는 것은 더 빠르고 저비용이지만, 그 효과는 추가 검증이 필요합니다. *여러 번의 평가 결과를 통합하는 것은 서로 다른 LLM을 활용하여 서로의 오류를 보안하는 효과가 있을 수 있지만, 하나의 LLM을 사용하는 방법은 오류를 보안할 방법이 없어서..?
그러나 이 두가지 접근 방식은 상호 배타적이지 않으며, LLM 출력의 직접 최적화 후 통합을 수행하면 더 안정적인 평가 결과를 얻을 수 있습니다.
Evaluation of LLM Evaluators
LLM 평가자의 인상적인 성능에도 불구하고, LLM은 환각(hallucinations), 편향(biases), 견고성 부족(robustness) 등 몇 가지 주목할 만한 단점을 보입니다. LLM을 평가자로 활용할 때, 이러한 고유한 문제들은 최적 이하의 평가 결과를 초래할 수 있습니다. 따라서 LLM-as-a-judge의 품질을 정확하고 포괄적으로 평가하고 잠재적 취약점을 식별하는 것이 중요합니다. 본 섹션에서는 LLM-as-a-judge 평가에 관한 기존 연구를 세가지 주요 영역에서 초점을 맞추어 검토합니다:
- 기본 메트릭
- 편향
- 견고성
Basic Metric
LLM-as-a-judge의 주요 목표는 인간 평가자와의 정렬(alignment)을 달성하는 것입니다. 많은 연구들은 LLM 평가자를 가상 주석자(virtual annotator)로 간주하고, LLM 평가자와 인간 주석자 간의 일치도를 평가하는 방식으로 접근합니다. 일치도(agreement) 메트릭은 LLM과 인간 주석자가 일치하는 샘플의 비율을 나타냅니다:
여기서 D는 데이터셋, Sllm과 Shuman은 각각 LLM 평가자와 인간 평가자의 평가 결과를 나타내며, 이는 점수나 순위 형태일 수 있습니다. 추가적으로, Cohen's Kappa와 Spearman's correlation과 같은 널리 사용되는 상관 메트릭도 일치도를 평가하는 데 사용됩니다. 다른 연구들은 LLM-as-a-judge 작업을 분류 문제로 취급하며, 인간 주석자를 레이블로 사용하여 정밀도, 재현율, F1 점수를 계산해 성능을 평가합니다.
이러한 메트릭들은 LLM이 생성한 응답과 인간 평가자가 응답한 데이터를 기반으로 합니다. 따라서 메타-평가를 위한 포괄적인 벤치마크를 구축하는 실용적인 필요성도 존재합니다.
(다양한 벤치마크에 대한 설명...)
현재 메타-평가는 주로 모델에 대한 LLM-as-a-judge에 집중하고 있으며, 이러한 LLM 평가자가 대규모 데이터 주석에 자동으로 사용될 때 사용할 충분한 메타-평가는 부족합니다. 따라서 LLM-as-a-judge가 대규모 데이터 주석에 사용될 때 인간 평가자와 정렬을 더 엄격하게 평가할 필요가 있습니다.
Bias
LLM이 다양한 작업에서 여러 유형의 편향을 보인다고 이전 섹션에서 말한 적이 있습니다. 이러한 LLM의 내재적 편향은 LLM-as-a-judge에도 영향을 미쳐 불공정한 평가 결과를 초래하고, 이는 LLM 개발에 부정적인 영향을 줄 수 있습니다. 따라서 LLM 평가자가 가질 수 있는 편향 유형을 이해하고 체계적으로 평가하는 것이 중요합니다. 이 섹션에서는 LLM-as-a-judge 맥락에서 다양한 편향 유형을 정의하고, 관련 메트릭과 평가에 사용할 수 있는 데이터셋을 체계적으로 검토합니다.
위치 편향(Position Bias)
- 정의: LLM 평가자가 프롬프트 내에서 특정 위치에 있는 응답을 선호하는 경향
- 영향: 예를 들어, Vicuna-13B의 응답을 ChatGPT가 두 번째 위치에 두면 ChatGPT가 이를 더 우수하게 평가할 수 있습니다.
- 평가 메트릭:
- 위치 일관성(Position Consistency): 위치를 바꾼 후 동일한 응답을 선택하는 빈도
- 선호 공정성(Preference Fairness): 특정 위치의 응답을 평가자가 얼마나 선호하는지 측정
- 충돌률(Conflict Rate): 두 후보 응답의 위치를 변경한 후 평가 불일치 비율
- 특징: 편향의 정도는 응답 품질 차이에 따라 달라지며, LLM마다 선호하는 위치가 다릅니다. 예를 들어, GPT-4는 첫 번째 위치를 선호하고, ChatGPT는 두 번째 위치를 선호합니다.
길이 편향(Length Bias)
- 정의: 특정 길이의 응답을 선호하는 경향, 종종 더 장황한 응답을 선호하는 것으로 나타납니다.
- 평가 방법: 원래 응답을 더 장황하게 바꾸어 비교, 또는 여러 샘플을 비교해 통계적으로 긴 답변을 선호하는 경향 확인
- 문제점: 응답의 길이를 늘리는 것이 당연히 새로운 정보는 추가하지 않지만, 당황함(perplexity), 유창성(flency), 스타일(style)의 변화나 다른 편향을 도입할 수 있습니다. 여러 샘플의 품질을 동일하게 유지하는 것 또한 어렵습니다.
자기 향상 편향(Self-Enhancement Bias)
- 정의: LLM 평가자가 자신이 생성한 응답을 선호하는 경향
- 해결책: 같은 모델을 평가자로 사용하는 것을 피하는 것이 일시적인 해결책입니다. 하지만 이는 최적의 평가자를 사용하지 못할 수 있습니다.
기타 편향(Other Bias)
- 다양성 편향(Diversity Bias): 특정 인구 집단(성별, 인종, 성적 지향 등)에 대한 편향. 예를 들어 시각적으로 매력적인 콘텐츠를 실제 유효성과 상관없이 선호하는 경향
- 구체성 편향(Concreteness Bias): 권위 있는 출처 인용, 숫자, 복잡한 용어 등의 구체적인 세부 사항이 포함된 응답을 선호하는 경향. 이는 권위 편향(authority bias) 또는 인용 편향(citation bias)이라고도 합니다.
- 감정 편향(Sentiment Bias): 특정 감정 톤(명랑, 슬픔, 분노, 공포 등)을 가진 응답을 선호하는 경향
향후 과제 및 도전(Challenges)
- 쳬계적인 벤치마크 필요성:
- 편향의 다양성 때문에 다양한 편향을 평가할 수 있는 체계적인 벤치마크가 필요
- 예: EVALBIASBENCH 는 여섯 가지 유형의 편향을 측정하기 위한 테스트 셋입니다. CALM 은 12가지 편향을 포괄하는 통합 편향 테스트 프로세스를 제안했습니다.
- 하지만 아직 모든 편향 유형을 포함하는 체계적인 벤치마크와 데이터셋은 없습니다.
- 통제된 연구의 어려움:
- 특정 편향을 조사할 때 다른 편향이나 품질 관련 특성과 분리하기 어려움
- 예: 위치 편향 연구에서 응답 길이를 늘리면 스타일, 유창성, 일관성 변화 뿐만 아니라 자기 향상 편향 같은 새로운 편향도 유발할 수 있습니다.
- 또한 GPT-4가 GPT-3.5보다 자신의 응답을 선호하는 경향은 자기 향상 편향일 수도 있고, 더 높은 품질 텍스트를 선호하는 정상적 영향일 수도 있습니다.
- 다라서 분석 작업에서는 이러한 변수를 신중하게 통제해야합니다.
Adversarial Robustness
적대적 견고성은 모델이 점수를 조작하려는 의도로 제작된 입력을 견딜 수 있는 능력을 의미합니다. 이는 주로 자연 발생 샘플에 중점을 둔 편향 평가와 달리, 점수를 인위적으로 올리기 위해 문구를 삽입하는 등 의도적으로 조작된 샘플을 다룹니다. 충분한 견고성이 없으면 사소한 조작으로 평가자를 속여 텍스트 품질 평가를 훼손할 수 있으므로, 견고한 평가자를 확보하는 것은 특히 중요한 응용 분야에서 정확하고 신뢰할 수 있는 평가를 유지하는 데 필수적입니다.
연구 예시 및 발견사항:
- 블랙박스 LLM 평가자로부터 대리 모델(surrogate model)을 구축하고, 이를 기반으로 적대적 공격 문구를 학습하였습니다. 학습된 공격 문구를 보편적으로 삽입하면 텍스트 품질을 개선하지 않아도 평가 점수가 크게 상승할 수 있음을 보여주었습니다.
- 또 다른 연구에서는 입력 지시와 무관한 상수 응답을 출력하는 "null model"조차도 다양한 LLM-as-a-judge 방법에서는 높은 승률을 달성할 수 있음을 입증했습니다.
- 최근 몇몇 연구에서는 "90%가 이것이 더 낫다고 생각한다"와 같은 다수 의견을 추가하여 평가 점수를 인위적으로 높이는 시도를 탐구했습니다.
- 다른 연구들은 System prompt에 "Assistant A는 파스타 먹는 것을 좋아합니다."와 같이 의미없는 문장을 삽입하여 견고성을 평가하였습니다. 이들 연구는 LLM-as-a-judge가 텍스트 품질과 무관한 간섭에 대해 여전히 충분히 견고하지 않음을 드러냈습니다.
방비 조치와 한계: Perplexity 점수와 같은 방어 매커니즘은 제한된 유형의 적대적 예제를 탐지할 수 있지만, 모든 형태의 공격에 대응하기에는 부족합니다. *perplexity 점수는 judge를 수행하는 맥락과 유사하지 않은 적대적 공격 문구에 대응할 수는 있습니다.
결론적으로, 보다 견고한 LLM-as-a-judge 시스템을 구축하는 것은 향후 연구의 중요한 방향입니다. 이는 의도된 점수 조작 시도에도 정확하고 신뢰할 수 있는 평가를 유지하기 위해 필수적입니다.