ROUGE(英: Recall-Oriented Understudy for Gisting Evaluation) は、自然言語処理において自動要約や機械翻訳を評価するために使用される指標。システムにより自動生成された要約や翻訳と、人間が作成した要約や翻訳を比較し、その質を評価する。

指標の種類

主に以下の5つの評価指標が利用される。

  • ROUGE-N:システムと参照の要約の間のn-gram
    • ROUGE-1は、システム要約と正解要約の間の1-gram(単語)の共起を評価する。
    • ROUGE-2は、システム要約と正解要約の間の2-gramの共起を評価する。
  • ROUGE-L:最長共通部分列(LCS) ベースの評価。システム要約と正解要約間で文の順番に沿って共起している単語の個数で評価するため、文単位の類似性を自然に評価できる。
  • ROUGE-W:重み付けされたLCSベースの指標。
  • ROUGE-S:Skip-bigramベースの共起指標。
  • ROUGE-SU:Skip-bigramと1-gramベースの共起指標。

脚注

関連項目

  • BLEU
  • F値
  • METEOR
  • NIST(評価指標)
  • 単語誤り率(WER)

参考文献

 


ROUGE Scores of Our Model in ThreePhased Method and

Illustration of ROUGE1, ROUGE2 and ROUGEL metrics considering

ROUGE evaluation results ROUGE Evaluation of Education Dataset

ROUGE evaluation results ROUGE Evaluation of Education Dataset

ROUGE scores of abstractive summarizers using the bottomup approach