BACK TO LAB

LLM Comparison Report

LAST UPDATED: APRIL 2026

Overview

2026年現在の主要なローカルLLM（Large Language Models）の比較。日本語対応能力、推論速度、および量子化効率を軸にベンチマークを行いました。本レポートでは民生用GPU（VRAM 24GB〜）での動作を想定しています。

Model Name	Params	Architecture	JP Capability	Use Case
Llama-4-8B-Inst	8.2B	Dense	High	Chat / Coding
Mistral-NeMo-12B	12.2B	Dense	Mid-High	Agentic Task
Gemma-3-9B-IT	9.1B	Dense	High	Summarization
DeepSeek-V3-Lite	16B	MoE	Mid	Logic / Math

日本語ベンチマーク（J-Logic-Eval）における総合スコア比較：

Llama-4-8B-Inst88/100

Mistral-NeMo-12B82/100

Gemma-3-9B-IT85/100