如何评价大语言模型

什么是大语言模型Large Language Model #

计算机能力从理解程序语言(比如c)上升到理解 自然语言(比如english). 这种能力通常成为 自然语言处理能力(Nature Language Processing). 大语言模型是在神经网络模型的基础上极大的提升的自然语言处理能力, 甚至达到了类似人的反应能力。

评估大预言模型的重要性 #

  • 确认大预言模型的准确性
  • 偏见和伦理性评测
  • 提升用户体验
  • 确认大预言模型的多样性和专家能力
  • 满足法规要求
  • 识别不足
  • 模拟真实场景
  • 确认责任

评估的主要方向 #

  • 可靠性
  • 安全
  • 公平
  • 防止错误使用
  • 解释性和推理
  • 普世价值
  • 健壮性
  • 性能和有效性
  • 准确性
  • 智能能力

评估LLM的7个方法 #

Perplexity #

BLEU #

ROUGE #

METEOR #

metric for evaluation of translation with explicit ordering

Human Evaluation #

Diversity #

Zero-shot Evaluation #

评估LLM的框架 #

Big bench #

GLUE #

SuperGLUE #

OpenAI Moderation API #

MMLU #

EleutherAI LM Eval #

OpenAI Evals #

LIT #

Language Interpretability Tool

ParlAI #

CoQA #

LAMBADA #

HellaSwag #

LogiQA Dataset #

SQUAD #

参考 #

微软的评价