プロンプトエンジニアリングは重要か

この研究は、大規模言語モデル(LLMs)の性能に対するプロンプトフォーマットの影響を調査している。特に、OpenAIのGPTモデルを対象に、プレーンテキスト、Markdown、YAML、JSONといった異なるフォーマットがモデルのパフォーマンスにどのように影響するかを評価した。実験の結果、GPT-3.5-turboではプロンプトのフォーマットによって最大40%の性能差が見られ、特にJSONフォーマットがMarkdownに比べて42%の精度向上を示した。この研究は、固定されたプロンプトテンプレートの使用を再考する必要性を強調している。

GPT-4の場合、プロンプトフォーマットの変更に対してより堅牢である。具体的には、GPT-4-1106-previewモデルは、フォーマット変更に対する性能のばらつきが非常に小さく、CMD(変動係数)が0.036を超えないことが報告されている。また、GPT-4-32k-0613モデルもGPT-3.5シリーズよりは堅牢で、CMDが0.043を超えないことが示されている。これにより、GPT-4はプロンプトフォーマットの変化に対して一貫した性能を発揮することが確認されている。