BACK TO LAB

LLM Comparison Report

LAST UPDATED: APRIL 2026

Overview

2026年現在の主要なローカルLLM(Large Language Models)の比較。日本語対応能力、推論速度、および量子化効率を軸にベンチマークを行いました。本レポートでは民生用GPU(VRAM 24GB〜)での動作を想定しています。

Performance Table

Model Name Params Architecture JP Capability Use Case
Llama-4-8B-Inst 8.2B Dense High Chat / Coding
Mistral-NeMo-12B 12.2B Dense Mid-High Agentic Task
Gemma-3-9B-IT 9.1B Dense High Summarization
DeepSeek-V3-Lite 16B MoE Mid Logic / Math

Benchmark Scores

日本語ベンチマーク(J-Logic-Eval)における総合スコア比較:

Llama-4-8B-Inst88/100
Mistral-NeMo-12B82/100
Gemma-3-9B-IT85/100