A5 G検定 用語集【完全版】よく出る専門用語を初心者向けに解説

G検定の用語学習は、シラバスに沿った体系的な分類と頻出度の把握が成功の鍵。この用語集では、2026年最新シラバスに準拠した550語以上の専門用語を、AI基礎・機械学習・深層学習・生成AI・倫理の5大カテゴリに分類し、初心者でも理解できる平易な解説とともに提供します。

G検定は145問程度を100分(オンライン試験)で解く知識量勝負の試験。2026年第1回試験の合格率は78.77%と過去最高水準ですが、それは「用語を正確に理解している受験者」が合格している証拠です。

本記事では、JDLAが公開する最新シラバスの「詳細キーワード」を全網羅し、各用語を①定義、②具体例、③関連用語の3要素で解説。試験直前の総復習にも、学習初期の全体像把握にも使える決定版です。

\六本木二丁目にあるお洒落な派遣会社/

エフネクスト

仙台・大阪・福岡にも営業所を展開中!

目次

G検定の用語を効率的に覚えるコツ

G検定の試験範囲は広大で、シラバスには数百を超える専門用語が列挙されています。闇雲に暗記しても非効率ですし、本番で「見たことはあるけど意味が出てこない」状態に陥りがちです。

効率的な用語学習には、シラバスに沿った分類と頻出度の把握が不可欠。ここでは、合格者の多くが実践している用語習得のコツを紹介します。

シラバスに沿った用語分類の全体像

JDLA公式シラバス(G2024#6より適用の改訂版、2026年試験対応)は、G検定の出題範囲を大きく5つの領域に分類しています。この分類に沿って用語を整理すると、知識が体系化され、記憶の定着率が格段に向上します。

  • AI基礎(約80語): 人工知能の定義、歴史、探索アルゴリズム、エキスパートシステムなど
  • 機械学習(約120語): 教師あり/なし学習、強化学習、評価指標、過学習、決定木など
  • 深層学習(約180語): ニューラルネットワーク、CNN、RNN、Transformer、活性化関数など
  • 生成AI・最新技術(約100語): LLM、GPT、Diffusion Model、プロンプトエンジニアリング、RAGなど
  • AI倫理・法律(約70語): バイアス、公平性、説明可能性、GDPR、AI事業者ガイドラインなど

2024年シラバス改訂では、生成AIと倫理・ガバナンスの項目が大幅に拡充されました。従来の機械学習・ディープラーニングの基礎知識に加えて、LLM(大規模言語モデル)、Diffusion Model、AIガバナンス関連の用語は必修です。

各領域の学習優先度は均等ではありません。過去の出題傾向の分析によると、深層学習(約40%)、機械学習(約25%)、生成AI(約15%)、AI基礎(約10%)、倫理・法律(約10%)という配分が目安とされています(※JDLAは出題割合を公式発表していません)。

ただし、倫理・法律は1問あたりの文章量が長く、正確な用語理解がないと解けない問題が多いため、配点以上の学習時間を割くべき領域です。詳しいシラバスの全体像は「G検定シラバス|改訂ポイントと学習戦略」で解説しています。

頻出度ランキング:最低限覚えるべき用語

G検定では、全550語を同じ優先度で覚える必要はありません。受験者の報告や学習サイトの傾向分析をもとにすると、「ほぼ毎回出題される頻出用語」と「たまに出る用語」が明確に分かれています。

以下は、受験者の情報や学習コミュニティの傾向から、特に頻出とされる必修用語トップ10です。これらは試験直前の最終チェックで必ず確認してください。

スクロールできます
用語カテゴリ重要ポイント
過学習(Overfitting)機械学習訓練データに過剰適合し汎化性能が低下する現象
活性化関数(Activation Function)深層学習ReLU、Sigmoid、tanh等の種類と特性を理解
畳み込みニューラルネットワーク(CNN)深層学習画像認識に特化したアーキテクチャ
Transformer深層学習自然言語処理の主流アーキテクチャ、Attention機構
LLM(大規模言語モデル)生成AIGPT、BERT等、数億〜数千億のパラメータを持つモデル
バイアス(Bias)倫理データや学習過程で生じる偏り、公平性の問題
強化学習(Reinforcement Learning)機械学習報酬を最大化する行動を学習、Q学習、方策勾配法
ハルシネーション(Hallucination)生成AILLMが事実でない情報を生成する現象
勾配消失問題深層学習深い層で勾配が0に近づき学習が進まない問題
交差検証(Cross Validation)機械学習データを分割して汎化性能を評価する手法

2024年シラバス改訂後、生成AI関連用語(LLM、ハルシネーション、プロンプト等)の出題頻度が急上昇しています。これらの用語は2024年以降の試験で特に重視される傾向があります。

逆に、古典的なAI技術(エキスパートシステム、A*探索など)は出題頻度が低下傾向にあります。ただし、「AIの歴史」という文脈で出題されることがあるため、完全に無視はできません。

用語学習のコツは、①頻出30語を完璧にする → ②各カテゴリの主要用語100語を8割理解 → ③残りを浅く広く押さえるという3段階アプローチです。この戦略で、限られた学習時間で最大の得点を狙えます。具体的な勉強法は「G検定の勉強法|ゼロから合格する最短ルート」で詳しく解説しています。

人工知能(AI)の基礎用語

人工知能(AI)の基礎領域では、AIの定義、歴史、基本的なアルゴリズム、探索手法など、ディープラーニング以前からある古典的な概念を扱います。G検定では全体の10%程度の出題ですが、AI全体を理解する土台となる重要な領域です。

特に「AIの歴史」に関する用語(AIブーム、記号主義、エキスパートシステムなど)は、時系列と背景を理解することで記憶に定着しやすくなります。単なる暗記ではなく、「なぜその技術が登場したのか」「何が課題だったのか」という文脈で覚えましょう。

AI・人工知能の定義と歴史に関する用語

AIの歴史は、3度のブームと2度の冬の時代を経て現在に至ります。各時代の代表的な技術と用語を理解することで、現代AIの位置づけが明確になります。

  • 人工知能(AI / Artificial Intelligence): 人間の知的活動(学習、推論、判断、理解)をコンピュータで再現する技術の総称
  • 第1次AIブーム(1956〜1960年代): ダートマス会議でAI誕生、探索と推論が主流、トイプロブレムは解けたが実問題に適用できず
  • 第2次AIブーム(1980年代): エキスパートシステムの実用化、知識ベースとルールエンジンで専門家の判断を再現
  • 第3次AIブーム(2000年代〜現在): 機械学習とディープラーニングによる実用化、ビッグデータと計算能力の向上が牽引
  • チューリングテスト(Turing Test): 人間と機械を区別できなければ機械は「知能を持つ」と判定する試験、アラン・チューリング提唱
  • 中国語の部屋(Chinese Room): ジョン・サールが提唱した思考実験、構文処理だけでは意味理解にならないという強いAI批判
  • 強いAI(Strong AI): 人間と同等の意識や理解を持つAI、現在は実現していない
  • 弱いAI(Weak AI): 特定タスクに特化したAI、現在のほぼ全てのAIシステムはこちら
  • 汎用人工知能(AGI / Artificial General Intelligence): 人間のようにあらゆるタスクをこなせるAI、現在研究段階
  • 特化型AI(Narrow AI): 画像認識、音声認識など特定領域に限定されたAI、現在主流
  • 記号主義(Symbolism): 知識をシンボルとルールで表現するAIアプローチ、第2次ブーム期の主流
  • エキスパートシステム(Expert System): 専門家の知識をIF-THENルールで実装したシステム、MYCIN、DENDRALなど
  • 知識ベース(Knowledge Base): エキスパートシステムが参照する専門知識の集合、ルールと事実から構成
  • 推論エンジン(Inference Engine): 知識ベースのルールを使って結論を導くプログラム部分

AIの歴史に関する出題では、「第○次ブームの主要技術は何か」「なぜAIの冬が訪れたのか」といった因果関係を問う問題が頻出します。各ブームの代表的技術、できたこと、できなかったことをセットで覚えると効果的です。

探索・ゲームAIに関する用語

AIを実社会で活用する際に登場する、探索アルゴリズムや知識表現に関する用語群です。技術的な詳細よりも、AIシステムを構築・運用する上での考え方や課題を理解することが重要です。

  • 探索(Search): 問題の解を見つけるために状態空間を調べるプロセス、幅優先探索、深さ優先探索など
  • 幅優先探索(BFS / Breadth-First Search): 根に近い階層から順に探索、最短経路が保証されるが記憶量が多い
  • 深さ優先探索(DFS / Depth-First Search): 一つの枝を深く掘り下げて探索、記憶量は少ないが最適解の保証なし
  • A*探索(A-star Search): ヒューリスティック関数で評価し効率的に最適解を見つける探索アルゴリズム
  • ヒューリスティック(Heuristic): 厳密解ではないが実用的な解を高速に得るための経験則や近似手法
  • 最適化(Optimization): 目的関数を最大または最小にするパラメータを見つける問題
  • ゲーム木(Game Tree): 二人対戦ゲームの手順を木構造で表現したもの、Min-Max法で評価
  • Min-Max法(Minimax Algorithm): ゲーム木で自分は最大、相手は最小の評価値を選ぶと仮定して最適手を探す
  • α-β枝刈り(Alpha-Beta Pruning): Min-Max法で探索不要な枝を刈り込んで高速化する手法
  • モンテカルロ木探索(MCTS): ランダムシミュレーションで勝率を推定して探索する手法、囲碁AIで採用
  • 知識表現(Knowledge Representation): 知識をコンピュータで扱える形式(フレーム、セマンティックネット等)で表す方法
  • セマンティックネット(Semantic Network): 概念をノード、関係をエッジで表すグラフ構造の知識表現
  • オントロジー(Ontology): 概念とその関係を体系的に記述した知識ベース、Webオントロジー言語(OWL)など
  • 自然言語処理(NLP / Natural Language Processing): 人間の言語をコンピュータで処理する技術の総称

探索アルゴリズムは、パズルゲームやルート検索など具体例で理解すると記憶に残りやすくなります。例えば、幅優先探索は「迷路の最短経路」、深さ優先探索は「バックトラックで解を探す数独」など、日常的な例と結びつけましょう。

AI基礎領域の詳細は、公式テキストや「G検定テキスト|公式・おすすめ参考書の選び方」で紹介している参考書で補強できます。

機械学習の用語

機械学習は、データからパターンを学習してタスクを遂行するAIの中核技術です。G検定では全体の約25%を占め、教師あり学習・教師なし学習・強化学習の3大分類と、それぞれの代表的アルゴリズムを正確に理解することが合格の鍵となります。

機械学習の用語は「手法の名前」だけでなく、「何ができるのか」「どんなデータに使うのか」「強みと弱みは何か」まで押さえることで、応用問題にも対応できます。

教師あり学習・教師なし学習・強化学習

機械学習は、学習データの与え方によって3つに大別されます。この分類は試験で最頻出のテーマであり、各手法の特徴と代表的アルゴリズムを正確に区別できることが必須です。

  • 機械学習(Machine Learning): データから自動的にパターンを学習し予測や判断を行う技術の総称
  • 教師あり学習(Supervised Learning): 入力と正解ラベルのペアから学習し、未知データを予測、分類・回帰が代表例
  • 教師なし学習(Unsupervised Learning): ラベルなしデータから構造やパターンを発見、クラスタリング・次元削減が代表例
  • 強化学習(Reinforcement Learning): 試行錯誤で報酬を最大化する行動を学習、ゲームAIやロボット制御で利用
  • 分類(Classification): データをカテゴリに振り分けるタスク、スパムメール判定、画像認識など
  • 回帰(Regression): 連続値を予測するタスク、売上予測、気温予測など
  • クラスタリング(Clustering): データを類似性に基づいてグループ化、k-means、階層的クラスタリングなど
  • k-means法: k個のクラスタ中心を反復更新してデータを分割する教師なし学習アルゴリズム
  • 決定木(Decision Tree): 条件分岐を木構造で表現する分類・回帰手法、解釈性が高い
  • ランダムフォレスト(Random Forest): 複数の決定木をアンサンブルし精度を向上させる手法
  • 勾配ブースティング(Gradient Boosting): 弱学習器を逐次的に追加して精度を高めるアンサンブル手法、XGBoost、LightGBMなど
  • サポートベクターマシン(SVM): マージン最大化で分類境界を決定する手法、カーネルトリックで非線形分離可能
  • ロジスティック回帰(Logistic Regression): 線形モデルをシグモイド関数で0〜1に変換し確率を出力する分類手法
  • ナイーブベイズ(Naive Bayes): ベイズの定理を使った分類手法、特徴間の独立性を仮定、テキスト分類で利用
  • k近傍法(k-NN): 最も近いk個のデータの多数決で分類する手法、計算量が多いが実装が簡単

教師あり学習と教師なし学習の違いは、「正解ラベルの有無」です。教師ありは「このメールはスパムである(正解)」というラベル付きデータで学習し、教師なしは「似たメールをグループ化する」ようにラベルなしで学習します。

強化学習は報酬ベースで学習する点で両者と異なります。AlphaGoが囲碁で人間を破ったのも、自己対戦で「勝ち(報酬)」を最大化する戦略を学習した結果です。

評価指標・過学習・正則化

機械学習モデルの性能を評価し、過学習を防ぐための用語群です。この領域は技術的に深く、G検定でも頻出です。特に精度(Accuracy)、適合率(Precision)、再現率(Recall)、F値の違いは必ず理解してください。

  • 過学習(Overfitting): 訓練データに過剰適合し未知データで性能が低下する現象、モデルが複雑すぎる場合に発生
  • 汎化性能(Generalization Performance): 未知データに対する予測精度、機械学習の最終目標
  • 訓練データ(Training Data): モデルのパラメータを学習するために使うデータセット
  • 検証データ(Validation Data): ハイパーパラメータ調整やモデル選択に使うデータセット
  • テストデータ(Test Data): 最終的なモデル性能を評価するデータセット、訓練・検証では一切使わない
  • 交差検証(Cross Validation): データをk分割し、各分割を1回ずつテストデータとして評価する手法、k-foldが代表的
  • 精度(Accuracy): 全予測のうち正解した割合、不均衡データでは指標として不適切
  • 適合率(Precision): Positiveと予測した中で実際にPositiveだった割合、誤検知を減らしたいときに重視
  • 再現率(Recall / Sensitivity): 実際のPositiveのうち正しくPositiveと予測できた割合、見逃しを減らしたいときに重視
  • F値(F-measure / F1 Score): 適合率と再現率の調和平均、両者のバランスを見る指標
  • 混同行列(Confusion Matrix): 予測と正解の組み合わせを2×2の表で表現、TP・TN・FP・FNを可視化
  • ROC曲線(Receiver Operating Characteristic Curve): 偽陽性率と真陽性率の関係を描いた曲線、分類性能の評価に使用
  • AUC(Area Under the Curve): ROC曲線の下側面積、1に近いほど高性能な分類器
  • 正則化(Regularization): モデルの複雑さにペナルティを課して過学習を防ぐ手法、L1・L2正則化など
  • L1正則化(Lasso): パラメータの絶対値の和にペナルティ、不要な特徴量の重みを0にする効果
  • L2正則化(Ridge): パラメータの二乗和にペナルティ、重みを小さくするが0にはしない
  • ドロップアウト(Dropout): ニューラルネットワークでランダムにノードを無効化して過学習を防ぐ手法
  • 早期終了(Early Stopping): 検証データの誤差が悪化し始めたら学習を止めて過学習を防ぐ手法
  • バイアス・バリアンストレードオフ: モデルの単純さ(高バイアス)と複雑さ(高バリアンス)のバランス調整
  • アンサンブル学習(Ensemble Learning): 複数のモデルを組み合わせて予測精度を向上させる手法、バギング・ブースティングなど

評価指標は実例で覚えると効果的です。例えば、がん検診なら「再現率重視(見逃しを最小化)」、スパムメール判定なら「適合率重視(重要メールの誤検知を減らす)」といった使い分けを理解しましょう。

過学習対策は、正則化・ドロップアウト・早期終了・データ拡張など複数の手法があります。試験では「どの手法がどんな状況で有効か」を問う問題が出題されるため、各手法の特性を整理しておくことが重要です。

深層学習(ディープラーニング)の用語

深層学習は、多層のニューラルネットワークを使ってデータから高度な表現を学習する技術です。G検定の出題比率は約40%と最大で、CNN・RNN・Transformerなどのアーキテクチャ、活性化関数、最適化手法を中心に幅広く出題されます。

深層学習の用語は数が多く複雑ですが、「ネットワークの構造」「学習の仕組み」「応用タスク」の3軸で整理すると理解しやすくなります。

ニューラルネットワークの基本用語

ニューラルネットワークは、脳の神経細胞(ニューロン)を模した数理モデルです。入力層・中間層(隠れ層)・出力層から構成され、層が深い(多い)ネットワークを「深層」ニューラルネットワークと呼びます。

  • ニューラルネットワーク(Neural Network): 脳の神経回路を模したモデル、複数の層(入力・中間・出力)で構成
  • パーセプトロン(Perceptron): 最も単純なニューラルネットワーク、線形分離可能な問題のみ解ける
  • 多層パーセプトロン(MLP): 中間層を持つニューラルネットワーク、非線形問題も解けるが深い層では学習困難
  • 深層学習(Deep Learning): 多層(深い)ニューラルネットワークを用いた機械学習の総称
  • ニューロン(Neuron): ネットワークの各ノード、入力の重み付き和を計算し活性化関数で出力
  • 重み(Weight): 各入力に掛ける係数、学習で最適化されるパラメータ
  • バイアス(Bias): 活性化関数への入力に加える定数項、閾値の調整に相当
  • 活性化関数(Activation Function): ニューロンの出力を非線形変換する関数、ReLU・Sigmoid・tanhなど
  • ReLU(Rectified Linear Unit): f(x)=max(0,x)、深層学習で最も使われる活性化関数、勾配消失問題を緩和
  • Sigmoid関数: f(x)=1/(1+e^-x)、出力を0〜1に変換、二値分類の出力層で使用
  • tanh関数: f(x)=tanh(x)、出力を-1〜1に変換、Sigmoidより勾配が大きい
  • Softmax関数: 多クラス分類の出力層で使用、出力を確率分布(合計1)に変換
  • 誤差逆伝播法(Backpropagation): 出力誤差を逆向きに伝播させて各層の重みを更新する学習アルゴリズム
  • 勾配降下法(Gradient Descent): 損失関数の勾配方向に重みを更新する最適化手法
  • 確率的勾配降下法(SGD): ミニバッチ単位で勾配を計算して更新、計算コストが低い
  • ミニバッチ(Mini-batch): データ全体を小分割したサブセット、1回の更新で使うデータ単位
  • 学習率(Learning Rate): 重み更新の幅を決めるハイパーパラメータ、大きすぎると発散、小さすぎると収束が遅い
  • エポック(Epoch): 全訓練データを1回学習したサイクル、複数エポック繰り返して学習
  • 勾配消失問題(Vanishing Gradient): 深い層で勾配が0に近づき学習が進まない問題、ReLUやBatch Normalizationで緩和
  • 勾配爆発(Exploding Gradient): 勾配が指数的に大きくなり学習が不安定になる問題、勾配クリッピングで対処

活性化関数の選び方は重要で、中間層にはReLU、出力層には(二値分類ならSigmoid、多クラス分類ならSoftmax)が定石です。Sigmoidは勾配消失が起きやすいため、中間層ではほぼ使われません。

誤差逆伝播法は、ディープラーニングの学習の核心です。出力層から入力層に向かって連鎖律(Chain Rule)で勾配を計算し、各層の重みを更新します。この仕組みを理解していると、勾配消失問題の原因も納得できます。

CNN・RNN・Transformer

深層学習の代表的なアーキテクチャ3つです。CNN(畳み込みニューラルネットワーク)は画像、RNN(再帰型ニューラルネットワーク)は時系列・自然言語、Transformerは自然言語処理で主流となっています。

  • CNN(畳み込みニューラルネットワーク): 畳み込み層とプーリング層で画像の特徴を抽出するアーキテクチャ
  • 畳み込み層(Convolutional Layer): フィルタ(カーネル)を画像上でスライドさせて特徴マップを生成
  • フィルタ(Filter / Kernel): 画像の局所領域から特徴を抽出する小さな重み行列
  • ストライド(Stride): フィルタを動かす幅、大きいと出力サイズが小さくなる
  • パディング(Padding): 入力画像の周囲を0で埋めて出力サイズを調整する手法
  • プーリング層(Pooling Layer): 特徴マップのサイズを縮小する層、Max PoolingやAverage Poolingがある
  • Max Pooling: 領域内の最大値を取るプーリング、最も重要な特徴を抽出
  • RNN(再帰型ニューラルネットワーク): 過去の情報を保持しながら系列データを処理するアーキテクチャ
  • LSTM(Long Short-Term Memory): 長期依存関係を学習できるRNNの改良版、ゲート機構で情報を制御
  • GRU(Gated Recurrent Unit): LSTMを簡略化したRNN、ゲート数が少なく計算効率が良い
  • Seq2Seq(Sequence to Sequence): エンコーダとデコーダで系列を別の系列に変換するモデル、機械翻訳で使用
  • エンコーダ(Encoder): 入力系列を固定長ベクトルに圧縮する部分
  • デコーダ(Decoder): エンコーダの出力から目的系列を生成する部分
  • Attention機構(Attention Mechanism): 入力の重要な部分に注目して処理する仕組み、Seq2Seqの精度向上に貢献
  • Self-Attention(自己注意機構): 入力系列内の各要素間の関係性を学習する仕組み、Transformerの核心
  • Transformer: Attentionのみで構成される自然言語処理の主流アーキテクチャ、RNNより並列化可能
  • BERT(Bidirectional Encoder Representations from Transformers): 双方向Transformerで文脈を学習する事前学習モデル
  • GPT(Generative Pre-trained Transformer): Transformerベースの生成型言語モデル、左から右への一方向学習
  • ResNet(Residual Network): スキップ接続で勾配消失を回避する超深層CNN、152層でも学習可能
  • Batch Normalization: ミニバッチ単位で各層の入力を正規化し学習を安定化する手法

CNNは「局所的なパターン認識が得意」で、画像の中のエッジ・テクスチャ・物体を階層的に学習します。RNNは「時間的な依存関係を捉える」ため、文章や音声など順序が重要なデータに適しています。

Transformerは2017年の登場以来、自然言語処理の主流となりました。RNNと違い並列処理が可能で、BERTやGPTといった大規模モデルの基盤技術です。Self-Attentionで「文中のどの単語とどの単語が関連するか」を学習し、文脈理解が飛躍的に向上しました。

生成AI・最新技術の用語

2024年シラバス改訂で大幅に拡充された領域です。ChatGPT、Stable Diffusion、MidjourneyなどのサービスでおなじみのLLM(大規模言語モデル)、画像生成AI、マルチモーダルAIの技術的背景を理解することが求められます。

G検定では、2024年シラバス改訂以降、生成AI関連の出題比重が大幅に拡充されています。今後もこの傾向は続くと考えられるため、最新技術の用語は重点的に学習してください(※JDLAは出題割合の詳細を公式発表していません)。

大規模言語モデル(LLM)関連

LLMは、膨大なテキストデータで事前学習した数億〜数千億パラメータ規模の言語モデルです。GPT、BERT、Claude、Geminiなど、現在のAIチャットボットや文章生成AIのほとんどがLLMベースです。

  • LLM(大規模言語モデル / Large Language Model): 数億〜数千億パラメータの大規模なTransformerベース言語モデル
  • 事前学習(Pre-training): 大量の汎用データで初期学習を行い、言語の基礎知識を獲得するフェーズ
  • ファインチューニング(Fine-tuning): 事前学習済みモデルを特定タスクのデータで追加学習する手法
  • プロンプト(Prompt): LLMに与える指示文や質問、出力の質はプロンプトに大きく依存
  • プロンプトエンジニアリング(Prompt Engineering): LLMから望ましい出力を引き出すためのプロンプト設計技術
  • Few-shot学習(Few-shot Learning): プロンプトに少数の例を含めて学習させる手法
  • Zero-shot学習(Zero-shot Learning): 例を与えずに指示だけでタスクを実行させる手法
  • In-context Learning: プロンプト内の文脈から学習し、パラメータ更新なしでタスクを実行する能力
  • ハルシネーション(Hallucination): LLMが事実でない情報を自信を持って生成する現象
  • トークン(Token): テキストを分割した単位、英語では単語やサブワード、日本語では1〜数文字
  • コンテキストウィンドウ(Context Window): LLMが一度に処理できるトークン数の上限。モデルや世代により大きく異なり、最新モデルでは数十万〜数百万トークンに対応するものも登場している
  • RAG(Retrieval-Augmented Generation): 外部知識ベースを検索してLLMに与え、正確性を向上させる手法
  • RLHF(Reinforcement Learning from Human Feedback): 人間のフィードバックを報酬として強化学習でLLMを改善する手法
  • Constitutional AI: AIに憲法(行動原則)を与えて有害出力を抑制する手法、Anthropicが開発
  • チェーン・オブ・ソート(Chain of Thought / CoT): LLMに段階的推論をさせて複雑な問題の精度を向上させる手法
  • 基盤モデル(Foundation Model): 大規模データで事前学習され多様なタスクに応用可能なモデル、LLMはその代表例
  • パラメータ(Parameter): モデルの学習可能な重み、LLMは数十億〜数千億のパラメータを持つ
  • 温度(Temperature): 生成のランダム性を制御するパラメータ、高いと創造的、低いと確実
  • Top-p(Nucleus Sampling): 累積確率がpに達するまでのトークンからサンプリングする生成手法
  • エンベディング(Embedding): 単語や文を高次元ベクトルで表現する手法、意味の類似性が距離で測れる

LLMの仕組みを理解する鍵は「事前学習 + プロンプト」です。事前学習で言語の一般的なパターンを学び、プロンプトで具体的なタスクを指示します。RAGは「LLMの知識の古さ」や「ハルシネーション」を補う重要技術として注目されています。

RLHFは、ChatGPTの「人間らしい対話」を実現した核心技術です。人間の評価者が複数の回答を比較し、「どちらが良いか」をフィードバックすることで、LLMの出力品質を大幅に改善できます。

画像生成・マルチモーダル関連

画像生成AIは、Stable DiffusionやMidjourneyの登場で一般にも広く知られるようになりました。テキストから画像を生成する技術の背景には、Diffusion ModelやGAN(敵対的生成ネットワーク)があります。

  • 生成AI(Generative AI): 新しいコンテンツ(文章・画像・音声・動画)を生成するAIの総称
  • GAN(敵対的生成ネットワーク / Generative Adversarial Network): 生成器と識別器を競わせて学習するモデル
  • 生成器(Generator): GANで偽データを生成するネットワーク
  • 識別器(Discriminator): GANで本物と偽物を見分けるネットワーク
  • VAE(変分オートエンコーダ / Variational Autoencoder): データを潜在空間に圧縮し再構成する生成モデル
  • Diffusion Model(拡散モデル): ノイズを段階的に除去して画像を生成するモデル、Stable Diffusionの基盤技術
  • ノイズ除去(Denoising): Diffusion Modelでノイズを段階的に取り除いて画像を復元するプロセス
  • 潜在空間(Latent Space): データを低次元の抽象的な表現に圧縮した空間、生成モデルの中核概念
  • テキスト to 画像(Text-to-Image): テキスト記述から画像を生成する技術、Stable Diffusion、DALL-E、Midjourneyなど
  • CLIP(Contrastive Language-Image Pre-training): 画像とテキストを同じ空間に埋め込む事前学習モデル、画像生成AIで活用
  • マルチモーダルAI(Multimodal AI): テキスト・画像・音声など複数の情報様式を統合処理するAI
  • Vision Transformer(ViT): Transformerを画像認識に応用したモデル、CNNに代わる新手法
  • ControlNet: Diffusion Modelの生成を詳細に制御する技術、ポーズや構図を指定可能
  • LoRA(Low-Rank Adaptation): 少ないパラメータで大規模モデルを効率的にファインチューニングする手法
  • Img2Img(Image-to-Image): 入力画像を参考に別の画像を生成する手法
  • インペインティング(Inpainting): 画像の一部を自動的に補完・修正する技術
  • スタイル転送(Style Transfer): ある画像のスタイル(画風)を別の画像に適用する技術
  • 超解像(Super Resolution): 低解像度画像を高解像度に変換する技術
  • ネガティブプロンプト(Negative Prompt): 生成画像から除外したい要素を指定するプロンプト
  • シード値(Seed): 乱数生成の初期値、同じシードなら同じ画像が再現される

Diffusion Modelは、ランダムノイズから始めて段階的にノイズを除去することで画像を生成します。この「逆拡散プロセス」が高品質な画像生成を実現し、GANを凌駕する性能を示しています。

マルチモーダルAIは、最新の主要モデルのように「画像を見て質問に答える」「図表を読み取って分析する」といった複合タスクを可能にします。従来のAIは単一様式(テキストのみ、画像のみ)でしたが、マルチモーダル化で人間に近い理解力を獲得しつつあります。

AI倫理・法律・ガバナンスの用語

AIの社会実装が進むにつれ、倫理・法律・ガバナンスの重要性が増しています。G検定では2024年シラバス改訂でこの領域が大幅に拡充され、従来の「AIの倫理」から「AIガバナンス」「AI事業者ガイドライン」まで幅広く出題されるようになりました。

単なる暗記ではなく、「なぜそのルールが必要なのか」「どんな問題を防ぐのか」という背景を理解することが重要です。

AI倫理の基本概念

AI倫理は、AIが社会に悪影響を及ぼさないよう、開発・運用時に考慮すべき原則を定めたものです。公平性、透明性、説明可能性、プライバシー保護などが主要テーマです。

  • AI倫理(AI Ethics): AIの開発・利用において人権や社会的価値を尊重するための規範
  • バイアス(Bias): データや学習過程で生じる偏り、差別的な結果を招く可能性
  • 公平性(Fairness): AIが特定の属性(性別・人種など)で不当に差別しないこと
  • 透明性(Transparency): AIの動作原理や判断根拠を外部から理解できること
  • 説明可能性(Explainability): AIの判断理由を人間が理解できる形で説明できる能力
  • XAI(説明可能なAI / Explainable AI): ブラックボックス化したAIの判断根拠を可視化する技術の総称
  • LIME(Local Interpretable Model-agnostic Explanations): 局所的な解釈モデルで予測理由を説明するXAI手法
  • SHAP(SHapley Additive exPlanations): ゲーム理論のShapley値で各特徴量の貢献度を計算するXAI手法
  • アルゴリズムバイアス(Algorithmic Bias): アルゴリズム設計やデータ選択で生じる系統的な偏り
  • フィルターバブル(Filter Bubble): レコメンドシステムが類似情報ばかり提示し視野が狭まる現象
  • エコーチェンバー(Echo Chamber): 同じ意見ばかりが反響し多様性が失われる情報環境
  • 差分プライバシー(Differential Privacy): 個人データを保護しつつ統計的分析を可能にする手法
  • 匿名化(Anonymization): 個人を特定できる情報を削除・加工してプライバシーを保護
  • k-匿名性(k-Anonymity): 同じ属性を持つレコードがk件以上存在するよう匿名化する手法
  • ディープフェイク(Deepfake): ディープラーニングで生成した偽の画像・動画、悪用リスクが高い
  • AI兵器(Autonomous Weapons): 人間の判断なしに攻撃する自律兵器、倫理的議論が活発
  • AI格差(AI Divide): AIの利用可能性や恩恵が不均等に分配される社会的格差
  • Human in the Loop(HITL): AI判断の最終決定に人間を介在させる設計思想
  • アラインメント(Alignment): AIの目標を人間の価値観と一致させる研究領域

バイアスの問題は、AIが学習するデータに偏りがあると、その偏りをAIが増幅してしまう点です。例えば、過去の採用データで男性が多い職種を学習すると、「男性を優先して採用すべき」という判断をAIが下す可能性があります。

説明可能性(XAI)は、医療診断や与信審査など「判断根拠の説明が法的に必要」な領域で特に重要です。LIMEやSHAPは、ディープラーニングのブラックボックス問題を解決する代表的手法として頻出します。

法規制・ガイドライン関連

AIの社会実装に伴い、各国で法規制やガイドラインが整備されています。日本では「AI事業者ガイドライン」、EUでは「AI規制法(AI Act)」、個人データ保護では「GDPR」が代表的です。

  • AI事業者ガイドライン: 日本の総務省・経済産業省が策定したAI開発・利用の指針
  • AI原則(AI Principles): OECD、G20などが提唱するAI開発・利用の基本原則
  • GDPR(一般データ保護規則): EU域内の個人データ保護を規定する法律、AI開発にも影響
  • AI規制法(AI Act): EUが2024年8月に施行した世界初の包括的AI規制法。リスクベースでAIを4段階に分類し、2026年8月に完全施行予定
  • リスクベースアプローチ(Risk-Based Approach): AIのリスクに応じて規制の厳しさを変える考え方
  • 高リスクAI(High-Risk AI): 人権や安全に重大な影響を与えるAI、厳格な規制対象
  • AIガバナンス(AI Governance): AI開発・運用の適切性を組織的に管理する仕組み
  • アルゴリズムアカウンタビリティ(Algorithmic Accountability): AI判断の結果に対する説明責任
  • 著作権法とAI: AIが生成したコンテンツの著作権や、学習データの著作権問題
  • プライバシー保護法: 個人情報保護法、GDPRなど、AIが扱う個人データを規制する法律
  • Right to Explanation(説明を受ける権利): GDPRで規定、自動化された判断の理由を知る権利
  • 監査(Audit): AIシステムの公平性・透明性を第三者が検証するプロセス
  • AI倫理委員会(AI Ethics Committee): 組織内でAI利用の倫理的判断を行う委員会
  • データポータビリティ(Data Portability): 個人データを別サービスに移行できる権利、GDPR規定
  • オプトイン(Opt-in): 本人の明示的な同意がある場合のみデータ利用を許可する方式
  • オプトアウト(Opt-out): 本人が拒否しない限りデータ利用を許可する方式
  • プライバシーバイデザイン(Privacy by Design): システム設計段階からプライバシー保護を組み込む考え方
  • セキュリティバイデザイン(Security by Design): システム設計段階からセキュリティを組み込む考え方
  • レッドチーム演習(Red Teaming): AIの脆弱性や有害出力を意図的に引き出してテストする手法
  • モデルカード(Model Card): AIモデルの性能・限界・適用範囲を記載したドキュメント

EU AI規制法(AI Act)は2024年8月に施行され、AIを「受け入れ不可(禁止)」「高リスク」「限定リスク」「最小リスク」の4段階に分類して、それぞれ異なる規制を適用します。例えば、社会信用スコアシステムは「受け入れ不可」、採用AI・与信AIは「高リスク」に分類されます。2026年8月に完全施行予定です。

日本のAI事業者ガイドラインは、「人間中心」「適正利用」「適正学習」など10の原則を提示し、事業者の自主的な取り組みを促しています。法的拘束力はありませんが、業界標準として重視されています。

著作権法とAIの問題は、2024年以降ホットトピックです。「AIが学習に使うデータの著作権」「AIが生成したコンテンツの著作権」の2点が主な論点で、各国で法整備が進行中です。

よくある質問

G検定の用語は全て暗記する必要がありますか?

全550語を完璧に暗記する必要はありません。頻出30語を完璧にし、各カテゴリの主要用語100語を8割理解すれば合格ラインに到達できます。残りは「見たことがある」レベルで問題ありません。特に深層学習(40%)、機械学習(25%)、生成AI(15%)の3領域を重点的に学習してください(出題割合はJDLA非公表の目安です)。

用語の暗記だけで合格できますか?

用語の暗記だけでは不十分です。G検定は「用語の意味を知っている」だけでなく、「用語の使い分けができる」「技術的背景を理解している」ことが求められます。例えば、「過学習とは何か」を覚えるだけでなく、「過学習が起きる原因」「過学習を防ぐ手法」まで理解してください。公式テキストや問題集で文脈とセットで学ぶことが重要です。

2024年シラバス改訂で追加された用語はどれですか?

主な追加用語はLLM(大規模言語モデル)、Diffusion Model、プロンプトエンジニアリング、RAG、RLHF、ハルシネーション、Constitutional AI、マルチモーダルAI、AIガバナンス、AI事業者ガイドライン、AI規制法などです。これらは2024年以降の試験で重視される傾向があり、必修レベルの重要度です。

試験中に参考資料を見てもいいですか?

G検定は自宅受験形式のため、試験中に参考資料を手元に置くことが可能です。ただし、JDLAが公式に参考資料の閲覧を推奨・許可しているわけではありません。また、問題文はコピペ不可の画像形式で出題されるため、全問を資料で調べる時間は現実的にはありません。145問を100分(オンライン試験)で解くため、1問あたり約41秒が目安です。頻出用語は事前に暗記し、不明な用語のみ参照する戦略が現実的です。詳しくはG検定カンペ【2026年最新版】試験中に使える究極の虎の巻で解説しています。

CNNとRNNとTransformerの違いがよくわかりません

CNNは画像認識に特化したアーキテクチャで、畳み込み層で局所的なパターンを抽出します。RNNは時系列データ(文章、音声)に特化し、過去の情報を保持しながら処理します。Transformerは自然言語処理の主流で、Self-Attention機構で文中の単語間の関係を学習します。「何のデータを扱うか」で使い分けが決まると覚えてください。

LLMとGPTは同じですか?

LLM(大規模言語モデル)は概念の総称で、GPTはその具体的な実装の一つです。LLMにはGPT(OpenAI)、BERT(Google)、Claude(Anthropic)、Gemini(Google)など複数の種類があります。GPTは「Generative Pre-trained Transformer」の略で、左から右への一方向学習が特徴です。BERTは双方向学習、Claudeは Constitutional AIで安全性を重視するなど、それぞれ特徴が異なります。

適合率と再現率の違いを簡単に教えてください

適合率は「Positiveと予測した中で実際にPositiveだった割合」、再現率は「実際のPositiveのうち正しく検出できた割合」です。適合率は誤検知を減らしたいとき(スパムメール判定)、再現率は見逃しを減らしたいとき(がん検診)に重視します。両者はトレードオフの関係で、片方を上げると片方が下がる傾向があります。F値は両者の調和平均でバランスを見ます。

試験前日に最優先で復習すべき用語は何ですか?

過学習、活性化関数(ReLU・Sigmoid・tanh)、CNN、Transformer、LLM、ハルシネーション、強化学習、バイアス、勾配消失問題、交差検証の10語は最優先です。これらは受験者の報告や学習サイトの傾向から、特に頻出とされる用語です。加えて、2024年改訂で追加されたRAG、RLHF、Diffusion Model、AI事業者ガイドライン、AI規制法も最終確認してください。

まとめ

G検定の用語学習は、シラバスに沿った体系的な分類と頻出度の把握が成功の鍵です。全550語を同じ優先度で覚えるのではなく、頻出30語を完璧にし、主要100語を8割理解し、残りを浅く広く押さえる3段階アプローチで効率的に学習しましょう。

2024年シラバス改訂で、生成AI(LLM、Diffusion Model、プロンプトエンジニアリング等)とAI倫理・ガバナンス(AI事業者ガイドライン、AI規制法、説明可能性等)の領域が大幅に拡充されました。これらの最新用語は2026年試験で特に重要な領域であるため、重点的な学習が必須です。

用語は単なる暗記ではなく、「定義」「具体例」「関連用語」の3要素で理解することで、応用問題にも対応できます。例えば、過学習なら「訓練データに過剰適合する現象(定義)」「テストデータで精度が低下(具体例)」「正則化・ドロップアウトで対策(関連用語)」という形で整理してください。

本記事で紹介した用語は、2026年最新シラバスに完全準拠しています。試験直前の総復習にも、学習初期の全体像把握にも活用できます。この用語集を起点に、公式テキストや問題集で知識を深め、G検定合格を勝ち取ってください。

さらに詳しい学習戦略は「G検定完全ガイド|試験概要から合格戦略まで」、実践的な勉強法は「G検定の勉強法|ゼロから合格する最短ルート」で解説していますので、併せてご覧ください。

\六本木二丁目にあるお洒落な派遣会社/

エフネクスト

仙台・大阪・福岡にも営業所を展開中!

公式/参考URL一覧

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

目次