日経エレクトロニクス 2020/03号

Fundamentals AIブームの立役者「強化学習」を直感的に理解する
〔第3回〕 最適な行動が見つかる「動的計画法」 段階を踏めば難しくない

 この一連の系列には、重要な前提条件があります。次の環境の状態St+1や報酬Rt+1は、今の状態Stとエージェントが今取る行動Atのみに応じて決まるというものです。別の言い方をすれば、それより前の過去の状態や行動は将来の状況に一切影響を及ぼさない、ある…(88〜96ページ掲載記事から抜粋) *テキスト版記事の文字数:13242文字

この記事をオンラインで読む
買い物カゴに入れる440円
買い物カゴに入れる(読者特価)220円
 特価が表示されない場合は下の (※)をご覧ください
この雑誌を購入する
この号を購入
お得な定期購読 (手続き画面へ移動します)

(※) 「読者特価」でご購入の際、日経IDに未ログインの場合は途中で通常価格が表示されることがあります。ご購入画面をそのまま進んでいただき、「次へ(お客様情報の入力へ)」のボタン押下後に表示されるログイン画面で日経IDをご入力ください。特価適用IDであれば、表示が特価に変わります。

関連カテゴリ・企業名
【記事に含まれる分類カテゴリ】
情報システム > 情報工学 > 人工知能
ビズボードスペシャル > 学術系 > 人工知能
Bizトレンド > キーテクノロジー > AI
update:20/03/10