コンテンツ集合Xがあります。各々の要素x∈ Xは特徴量f_1(x)∈Y_1 を持っています。
同様にユーザーu ∈ Uが存在し、特徴量f_2(u)∈Y_2を持っています。
コンテンツには単価P(x)が存在し、ユーザーuがコンテンツをm回消費することをg(u, x, m)=m*P(x)_uで表し、全てのユーザーU, 全てのコンテンツXに対して行列M∘P = g(U, X, M) が存在します。
目的関数M∘Pを最大化したいのですが、どんなアルゴリズムが考えられるでしょうか。

回答

この問題は、コンテンツとユーザーの特徴量を考慮して、ユーザーがコンテンツを消費する回数を最大化するものです。このような問題は、推薦システムの分野で広く研究されており、協調フィルタリングと呼ばれるアプローチが一般的に使われています。
協調フィルタリングアルゴリズム
協調フィルタリングには、以下のようなアルゴリズムが考えられます。
1. 行列因子分解 (Matrix Factorization)
行列因子分解は、ユーザー・コンテンツ行列を低ランク近似することで、ユーザーとコンテンツの潜在的な特徴を抽出します。具体的には、ユーザー行列Uとコンテンツ行列Vを求め、その内積U^TVで元の行列を近似します。この手法は、Netflix Prizeで優れた成績を収めました。[1]
2. ニューラルコラボレーティブフィルタリング (Neural Collaborative Filtering)
ニューラルネットワークを用いて、ユーザーとコンテンツの非線形な関係を学習します。入力としてユーザー IDとコンテンツ IDを与え、出力として評価値を予測します。この手法は、従来の行列因子分解よりも高い精度が期待できます。[2]
3. 階層的ベイズモデル (Hierarchical Bayesian Model)
ユーザーとコンテンツの特徴量を階層ベイズモデルに組み込むことで、より柔軟なモデリングが可能になります。この手法は、Cold-Start問題(新規ユーザー・コンテンツの推薦が困難)の解決に有効です。[3]
4. 強化学習 (Reinforcement Learning)
ユーザーの行動履歴を環境として捉え、報酬最大化のためのアクションを学習します。この手法は、長期的な利益最大化に適しています。[4]
これらのアルゴリズムは、ユーザーとコンテンツの特徴量を考慮しながら、目的関数を最大化するように設計されています。実装の際は、データセットの特性やモデルの複雑さ、計算リソースなどを考慮する必要があります。[5]
Citations:
[1] https://aicontentfy.com/en/blog/understanding-algorithms-behind-content-distribution
[2] https://marketbrew.ai/optimizing-your-websites-content-with-genetic-programming
[3] https://sproutsocial.com/insights/social-media-algorithms/
[4] https://surferseo.com/blog/the-new-algorithm-for-content-analysis/
[5] https://www.linkedin.com/advice/0/what-best-ways-measure-content-relevance-x6apf

Permalink | 記事への反応(0) | 12:51

2024-06-05

■I.GPT-4からAGIへ：OOMを数える (7)

アンホブリング

最後に、定量化するのが最も難しいが、それに劣らず重要な改善のカテゴリーを紹介しよう。

難しい数学の問題を解くように言われたとき、頭に浮かんだことを即座に答えなければならないとしたらどうだろう。最も単純な問題を除いて、苦労するのは明らかだろう。しかしつい最近まで、LLMにはそうやって数学の問題を解かせていた。その代わり、私たちのほとんどはスクラッチパッドで段階的に問題を解いていき、その方法ではるかに難しい問題を解くことができる。「思考の連鎖」プロンプトは、LLMのそれを解き放った。生の能力は優れているにもかかわらず、明らかな足かせがあるため、LLMは数学が苦手なのだ。

私たちはここ数年で、モデルの「足かせを外す」ことに大きな進歩を遂げました。これは単に優れたベースモデルをトレーニングするだけでなく、アルゴリズムの改良によってモデルの能力を引き出すものです：

人間のフィードバックからの強化学習（RLHF）。ベースモデルは驚くべき潜在能力を持っているが、未完成であり、扱うのが信じられないほど難しい。RLHFの一般的な概念は、単に汚い言葉を検閲するというものですが、RLHFはモデルを実際に有用で商業的に価値のあるものにする鍵でした（モデルにランダムなインターネットテキストを予測させるのではなく、あなたの質問に答えようとする能力を実際に適用させるのです！）。これがChatGPTの魔法であり、RLHFがうまく機能することで、初めてモデルが実際の人々にとって使いやすく、有用なものになったのです。元のInstructGPTの論文には、これを数値化した素晴らしいものがあります：人間の評価者の好みという点で、RLHFを行った小さなモデルは、RLHFを行っていない100倍以上の大きなモデルと同等でした。
思考の連鎖（CoT）。議論されている通りである。CoTはわずか2年前に広く使われ始め、数学/推論問題において10倍以上の有効な計算量増加をもたらす。

足場作り。CoT++について考えてみよう：ただ問題を解くようモデルに求めるのではなく、あるモデルに攻撃計画を立てさせ、別のモデルに可能性のある解決策をたくさん提案させ、別のモデルにそれを批評させる、といった具合だ。例えば、HumanEval（コーディング問題）では、単純な足場作りによってGPT-3.5が足場なしのGPT-4を上回った。SWE-Bench（実世界のソフトウェアエンジニアリングのタスクを解くベンチマーク）では、GPT-4は~2%しか正しく解くことができませんが、Devinのエージェントの足場があれば14-23%に跳ね上がります。(後ほど詳しく説明するが、エージェントのアンロックはまだ初期段階に過ぎない。)

ツール：もし人間が電卓やコンピュータを使うことを許されなかったらと想像してみてほしい。まだ始まったばかりだが、ChatGPTはウェブブラウザを使ったり、コードを実行したりできるようになった。

コンテキストの長さ。モデルは2kトークンコンテキスト(GPT-3)から32kコンテキスト(GPT-4リリース)、そして1M以上のコンテキスト(Gemini 1.5 Pro)になりました。これは非常に大きなことだ。例えば、100kトークンの関連コンテキストを持つはるかに小さなベースモデルは、はるかに大きくても4k トークンの関連コンテキストしか持たないモデルを上回ることができる。より一般的には、コンテキストは、これらのモデルの多くのアプリケーションを解き放つ鍵である。例えば、多くのコーディングアプリケーションは、新しいコードを有益に貢献するために、コードベースの大部分を理解する必要がある。Gemini 1.5 Proは、1M以上のトークンコンテキストを持ち、辞書と文法参照資料をコンテキストに置くだけで、新しい言語（インターネット上にない低リソース言語）をゼロから学習することさえできた！
トレーニング後の改善ジョン・シュルマンによれば、現在のGPT-4は、潜在モデルの能力を解放するポストトレーニングの改善により、リリース当初のGPT-4に比べて大幅に改善されている、~LMSysのリーダーボードでは、ほぼ100ポイントのelo ジャンプ（クロード3俳句とはるかに大きなクロード3オーパスのeloの違いに匹敵し、価格差は50倍程度）。

エポック AIによる研究によると足場作りやツールの使用など、これらのテクニックのいくつかを調査したところ、このようなテクニックは多くのベンチマークで通常5～30倍の効果的な計算量の向上をもたらすことがわかった。METR（モデルを評価する組織）も同様に、同じGPT-4ベースモデルからのアンホブリングによって、エージェントタスクのセットで非常に大きなパフォーマンスの向上を発見しました。

https://situational-awareness.ai/wp-content/uploads/2024/06/metr_gains_over_time-1024x597.png

METRのエージェントタスクのパフォーマンス。出典モデル評価と脅威研究

これらをコンピュートとアルゴリズムの効率で統一した実効的なコンピュート規模に当てはめることは困難ですが、少なくともコンピュート規模の拡大やアルゴリズムの効率とほぼ同規模の大きな進歩であることは明らかです。(また、アルゴリズムの進歩が中心的な役割を担っていることも浮き彫りになっています。0.5OOM/年の計算効率は、すでに重要なものではありますが、ストーリーの一部に過ぎません。）

「アンホブリング」こそが、実際にこれらのモデルが有用になることを可能にしたのであり、今日多くの商業アプリケーションの足かせとなっているものの多くは、この種のさらなる「アンホブリング」の必要性であると私は主張したい。実際、今日のモデルはまだ信じられないほど足かせが多い！例えば

長期記憶がない。
コンピューターが使えない（まだ非常に限られたツールしか持っていない）。
話す前に考えないことがほとんどです。ChatGPTにエッセイを書かせるということは、人間が最初の意識の流れでエッセイを書くことを期待するようなものです。
ChatGPTは（たいていの場合）短いやりとりをすることしかできず、1日や1週間、問題について考え、さまざまなアプローチを調べ、他の人間に相談し、長いレポートやプルリクエストを書くことはできません。
チャットボットのほとんどは、あなたやあなたのアプリケーションにパーソナライズされていません（あなたの会社や仕事に関するすべての関連する背景を持っているのではなく、短いプロンプトを持つ一般的なチャットボットだけです）。

ここでの可能性は非常に大きく、私たちはここで急速に低空飛行の果実を摘んでいる。これは非常に重要です。"GPT-6 ChatGPT "を想像するだけでは完全に間違っています。 GPT-6＋RLHFと比べれば、進歩は段違いだ。2027年までには、チャットボットというより、エージェントのような、同僚のようなものが登場するだろう。

続き I.GPT-4からAGIへ：OOMを数える(8) https://anond.hatelabo.jp/20240605210232

Permalink | 記事への反応(1) | 21:00

■I.GPT-4からAGIへ：OOMを数える (4)

OOMを数える

どうしてこうなった？ディープラーニングの魔法は、それがただ機能するということであり、あらゆる場面で否定的な意見にもかかわらず、その傾向線は驚くほど一貫している。

https://situational-awareness.ai/wp-content/uploads/2024/06/sora_scaling-1024x383.png

OpenAI Soraの例計算量のスケーリングの効果。

効果的な計算のOOMが増えるごとに、モデルは予測通り、確実に良くなっていく。OOMを数えることができれば、能力の向上を（大まかに、定性的に）推定することができる。そうやって、先見の明のある数人がGPT-4の到来を予見したのだ。

GPT-2から GPT-4までの4年間の進歩を、スケールアップの3つのカテゴリーに分解することができる：

1. コンピュート：計算：これらのモデルを訓練するために、より大きなコンピューターを使うようになった。

2.アルゴリズムの効率化：アルゴリズムの進歩には継続的な傾向がある。これらの多くは「コンピュート・マルチプライヤ」として機能し、有効なコンピュート量の増加という統一された尺度に乗せることができます。

3.「趣味のない」利益：デフォルトでは、モデルは多くの素晴らしい生の能力を学習しますが、あらゆる種類の間抜けな方法で足かせとなり、実用的な価値が制限されます。人間のフィードバックからの強化学習（RLHF）、思考の連鎖（CoT）、ツール、足場などの単純なアルゴリズムの改善により、潜在的な能力を大きく引き出すことができる。

これらの軸に沿って、改善の「OOMを数える」ことができる。つまり、有効計算量の単位でそれぞれのスケールアップをトレースするのだ。3倍は0.5OOM、10倍は1OOM、30倍は1.5OOM、100倍は2OOMといった具合だ。2023年から 2027年まで、GPT-4の上に何を期待すべきかを見ることもできる。

ひとつひとつ見ていくが、OOMの数を急速に増やしていることは明らかだ。データの壁には逆風が吹いている可能性があり、それについては後述するが、全体的には、2027年までにGPT-4の上に、GPT-2から GPT-4規模のジャンプがもう1回起こると予想される。

コンピュート

まず、最近の進歩の原動力として最もよく議論されている、モデルへの（大量の）コンピュート投入について説明します。

多くの人は、これは単にムーアの法則によるものだと考えている。しかし、ムーアの法則が全盛期を迎えていた昔でさえ、その進歩は比較的緩やかなものでした。しかし、ムーアの法則が全盛期だった昔でさえ、10年で1～1.5OOMと、比較的ゆっくりとしたスピードだった。(かつては1つのモデルに100万ドルを費やすことさえ、誰も考えもしないことだった。）

モデル	推定コンピュート	成長率
GPT-2 (2019)	~4e21 FLOP
GPT-3 (2020)	~3e23 FLOP +	~2 OOMs
GPT-4 (2023)	8e24～4e25 FLOP +	~1.5～2 OOMs

エポック AIによるGPT-2から GPT-4までの計算量の推定値

エポック AI（AI トレンドの優れた分析で広く尊敬されている情報源）の公開推定値を使用して、2019年から 2023年までのコンピュートスケールアップを追跡することができます。GPT-2から GPT-3へのスケールアップは迅速で、小規模な実験から大規模な言語モデルを訓練するためにデータセンター全体を使用するまでにスケールアップし、コンピュートのオーバーハングが大きくなりました。GPT-3から GPT-4へのスケールアップでは、次のモデルのためにまったく新しい（はるかに大きな）クラスタを構築しなければならないという、最新の体制に移行しました。それでも劇的な成長は続いています。エポック AIの試算によると、GPT-4のトレーニングでは、GPT-2の3,000倍から 10,000倍の計算量を使用しています。

大雑把に言えば、これは長期的なトレンドの継続に過ぎない。過去 10年半の間、主に投資（およびGPUやTPUの形でAIワークロードに特化したチップ）の幅広いスケールアップのため、フロンティア AI システムに使用されるトレーニング計算量は、およそ〜0.5OOM/年で成長してきた。

https://situational-awareness.ai/wp-content/uploads/2024/06/compute_long_run_trend-1024x968.png

注目すべきディープラーニング・モデルのトレーニング・コンピュートの経年変化。出典エポック AI

GPT-2から GPT-3への1年間のスケールアップは異例のオーバーハングであったが、長期的なトレンドが続くことは間違いない。SF-rumor-millは、巨額のGPU受注の劇的な話で一杯だ。その投資は並大抵のものではないが、動き始めている。

この分析によれば、2027年末までにさらに2OOMsのコンピュート（数十億ドル規模のクラスター）が実現する可能性は非常に高いと思われる。さらに＋3OOMsのコンピュート（1,000億ドル規模以上）に近いクラスターも可能性がありそうだ（マイクロソフト／OpenAIで計画中と噂されている）。

https://situational-awareness.ai/wp-content/uploads/2024/06/stacked_compute-1024x866.png

続き I.GPT-4からAGIへ：OOMを数える(5) https://anond.hatelabo.jp/20240605205449

Permalink | 記事への反応(1) | 20:50

2024-02-21

■生成AIに強化学習された絵師 友達「AI 死ね。日本死ね。」

皆さんはご存じだろうか。

最近話題の生成AI、ワンクリックで美麗イラストが生成されるというアレのこと。

生成AIは、イラストレーターの作品を無断で学習しているとされている。

また、強化学習リストというものが存在し、有名なイラストレーターは強化学習リストに入っていて、コマンドに名前を入れると似た画風のイラストが出力される。

私は実はイラストレーターとしてお金をもらっている身だけど

私自体は弱小だが、大手のイラストレーターの知人が何人かいる。

その中でも古くからの友達の絵描きが、実は強化学習リストに名前入りしていた。

Twitterでも2桁万以上フォロワーがいる人気絵師である。

それが分かったとき、友達はほんとうに悔しくて辛そうにしていた。

絵を描く技術を何十年もかけて学んで、上手く描けなくて、やっと知名度が出て、それで食っていけるようになったのだ。いとも簡単に模倣物が作られることは悔しいに違いない。

どうしたら生成AIの規制をしっかりしてくれるんだろう。

今は正直、無法地帯だ。

著作物を勝手に学習されて、無限に出力されて　販売されている現状を、どうにか変えてほしい。

あきらかに現実のイラストレーターの不利益になっている。

また、イラストレーターという職種の将来の不安が一気にでてきた。

もともと不安定な仕事なのだ。さらに不安定になってどうする。

正直AIとか導入するなら人手不足のとこからやれと思う。（農業とか介護とか）

もともと過密状態のイラストレーター業界に入ってきて、夢持つ若者をぶん殴って楽しいか？

正直鬱になった人もたくさん知ってるし、自殺未遂した人もいる。

このままいけばイラストレーターだけの話じゃない。

ミュージシャンも声優も作曲家も作詞家も映像作家もカメラマンもそれらを教える教育者もぜ～～～～～んぶいらなくなる。

AIに技術を盗まれて。

そんな現状を変えれない政治なら死ね。もう滅びろ。

Permalink | 記事への反応(7) | 21:44

■anond:20231121182403

Gymnasium ってOpenAI Gymの後継の強化学習用のライブラリがあるからそれを使ってAIにテストプレイをお願いしたらいいんじゃないかな？

Permalink | 記事への反応(0) | 15:39

2024-01-31

■すべてがAIになる

「機械学習」や「深層学習」という言葉が死語になったとまではいわないまでもめっきり使われなくなって

今じゃすべてが「AI」に統合されたような気がしている

でも「強化学習」は別カテゴリとしてまだ生き延びている感じがする

Permalink | 記事への反応(0) | 10:04

2024-01-24

■anond:20240124124834

するやろ、じゃなくて、

現物を参考にした場合に問題がある（女性のモノ化）からそれを頑張って避けさせる

強化学習って奴で出来る

Permalink | 記事への反応(1) | 12:51

2024-01-04

■強化学習はゲームに使われると誰が決めた！？

って言う奴たまにいるけど、報酬を自然に定義可能と言う点でゲームほど強化学習に適した分野はないよね。

Permalink | 記事への反応(1) | 17:25

2023-10-14

■anond:20231014164940

人間というのはね、案外猿みたいに強化学習で学んでいるので、Twitterでミュートだのブロックだのに慣れていると現実社会にもそれを適用してしまうのですよ

Permalink | 記事への反応(0) | 16:50

2023-10-04

■anond:20230920161014

データ入力はいわゆる事務職とはちょっと外れるな

データ入力（手入力、データスクレイビング、強化学習等を含む）は、いまやデータサイエンティストとそのアシスタントの仕事になってしまった

マンパワーが必要な時はバイトをやとえばいいのだ

バイトでなくてデータ入力がやりたければ、pythonとSQLを勉強しよう

Permalink | 記事への反応(0) | 22:27

2023-08-21

■anond:20230821065607

AIはこれまでもエキスパートシステム、ニューラルネット誕生、強化学習誕生と小さい盛り上がりを見せては結局役に立たないと冬の時代に突入してたんだよな

今回ばかりはしっかり役に立ってるので今までの盛り上がりとは一線を画してるけど

Permalink | 記事への反応(0) | 07:21

2023-08-19

■anond:20230819095529

入出力だけテスト通過すればOKな業界は震えてるかもしれんが

非機能要件が多ければ多いほど使い物にならんよ

コード生成に関してはあってもなくても生産性変わらん(むしろ下がる可能性もある)レベルのことしか現状は実現できてないから、

道具として使いこなすのが云々って論はあまり現実に即してないね。　

よって、生成済みモデルで何かをする人は現状求められてないし役に立たない。

強化学習エンジニアは異常検知とかで潰しが効きそうなイメージはある。

Permalink | 記事への反応(0) | 10:02

2023-08-05

■[勉強日記] 論客を顧客とした開発

「何を言っているのだかわからない人のカオスな顧客要求を、ひとまずすべて聞いてみて、それをソフトウェアなり数理モデルに落とし込み、実現に近づけていく」という仕事がある。

ふと思ったのが、色々な場で語ってるサンデルとかガブリエルとか、そういう人達を顧客と考えて要件定義してみるとどういったモデルが炙り出されるのかと興味を持った。

例えば「倫理資本主義」なるものの要件には何があるだろうか。

倫理的と言える投資と言えない投資はどのように区別でき、倫理的と言えるアクションに強いインセンティブを与える自然なやり方があるのか。

あるいは法的要件によって特定の悪い行動を引き起こらないようにしたほう良いのか。様々な強化学習を使った奇妙なナッジ戦略で人を善へ導くのか。

こう考えると「施策そのものの倫理性」などと言われる可能性があるだろうというのがまず一つ言える。施策となり得る候補はできるだけ列挙し、アイデアを溜めておくのが良いと思った。

何も顧客を「サンデル」「ガブリエル」という有名人に限定する必要もないが、専門家の論文をごそっと集めてきてメタ分析するなどやり方は色々ありそうである。

Permalink | 記事への反応(0) | 21:18

2023-04-22

■ただのメモ

https://arxiv.org/pdf/2304.10466.pdf

効率的な深層強化学習には過学習の規制が必要

試行錯誤によって方針を学習する深層強化学習アルゴリズムは、環境と積極的に相互作用することによって収集された限られた量のデータから学習しなければならない。多くの先行研究が、データ効率の良いRLを実現するためには適切な正則化技術が重要であることを示していますが、データ効率の良いRLにおけるボトルネックの一般的な理解は不明なままでした。その結果、すべての領域でうまく機能する普遍的な技術を考案することは困難であった。

本論文では、非定常性、過剰な行動分布シフト、オーバーフィッティングなどのいくつかの潜在的な仮説を検討することにより、サンプル効率的な深層RLの主要なボトルネックを理解することを試みている。

＞効率のいい強化学習って難しいんですね

強化学習ってよく知らない

我々は、状態ベースのDeepMind control suite（DMC）タスクについて、制御された体系的な方法で徹底的な実証分析を行い、遷移の検証セットにおける高い時間差（TD）誤差が、深いRLアルゴリズムの性能に深刻な影響を与える主犯であり、良い性能をもたらす先行手法は、実際、検証 TD誤差を低く制御することを示した。この観察から、ディープRLを効率化するための強固な原理が得られる。すなわち、教師あり学習の正則化技術を利用することで、検証 TD誤差をヒルクライムできる。

＞時間差（TD）誤差ってやつがだめらしい

誤差を減らすのがDeepLearningだけど、それが時間差なのか。

我々は、検証 TD誤差をターゲットとするシンプルなオンラインモデル選択法が、状態ベースのDMCとGym タスクにおいて効果的であることを示す。

1 はじめに

強化学習（RL）法は、大容量の深層ニューラルネット関数近似器と組み合わせた場合、ロボット操作などのドメインで有望視されている（Andrychowicz et al、

2020）、チップ配置（Mirhoseini et al.、2020）、ゲーム（Silver et al.、2016）、データセンターの冷却（Lazic et al.、2018）。アクティブなオンラインデータ収集の単位ごとに費用が発生するため（例．

実際のロボットを動かす、シミュレーションによるチップ評価など）、限られた経験量でも効率的に学習できる、サンプル効率の良い深層RLアルゴリズムを開発することが重要である。このような効率的なRLアルゴリズムの考案が、近年の重要な研究課題となっています（Janner et al、

2019; Chen et al., 2021; Hiraoka et al., 2021)。

原理的には、オフポリシーRL法（例えば、SAC (Haarnoja et al., 2018), TD3 (Fujimoto et al., 2018), Rainbow (Hessel et al., 2018)）は、データ収集のステップごとに多くの勾配ステップのポリシーと値関数を改善することを可能にするため、良いサンプル効率が得られるはずです。しかし、このメリットは実際には実現できないようで、1回の学習ステップを多く取りすぎることでを収集した各遷移は、多くの環境において実際にパフォーマンスを害する。過大評価（Thrun & Schwartz, 1993; Fujimoto et al., 2018）といったいくつかの仮説、非定常性（Lyle ら、2022）、またはオーバーフィッティング（Nikishinら、2022）が根本的な原因として提案されている。

これらの仮説に基づき、より多くの勾配ステップを持つオフポリシーRLを可能にする方法として、モデルベースのデータ増強（Jannerら、2019）、アンサンブルの使用（Chenら、2021）、ネットワークの正則化（Hiraokaら、2021）、再生バッファを維持しながらRLエージェントをゼロから定期的にリセット（Nikishinら、2022）などのいくつかの緩和戦略が提案されている。これらのアプローチはそれぞれサンプル効率を大幅に向上させるが、これらの修正の有効性は（これから示すように）タスクに大きく依存する可能性があり、根本的な問題やこれらの手法の挙動を理解することはまだ未解決である。

ICLR 2023で会議論文として発表本論文では、より多くの勾配ステップを取ることが深層RLアルゴリズムの性能悪化につながる理由、ヒューリスティック戦略が役立つ場合がある理由、そしてこの課題をより原理的かつ直接的な方法で軽減する方法を理解しようとするものである。

最近提案されたタンデム学習パラダイム(Ostrovski et al., 2021)を用いた実証分析を通じて、TD 学習アルゴリズムは、学習の初期段階において、すぐに高い検証時間差(TD)誤差(すなわち、保留した検証セットにおけるQ-ネットワークとブートストラップターゲットの間の誤差)を得る傾向にあり、悪い最終解をもたらすことを明らかにする。

このホワイトペーパーでは、深い RL アルゴリズムで勾配ステップを増やすとパフォーマンスが低下する理由、場合によってはヒューリスティック戦略が役立つ理由、およびこの課題をより原則的かつ直接的な方法で軽減する方法を理解しようとします。最近提案されたタンデム学習パラダイム (Ostrovski et al., 2021) を使用した実証分析を通じて、トレーニングの初期段階で、TD 学習アルゴリズムが高い検証時間差を迅速に取得する傾向があることを示します。

(TD) エラー (つまり、保留された検証セットでの Q ネットワークとブートストラップターゲットとの間のエラー) が発生し、最終的なソリューションが悪化します。さらに、データ効率の高い RL 設定のために考案された多くの既存の方法が、検証 TD エラーを低く制御する限り有効であることを示します。

この洞察は、深い RL を効率的にするための堅牢な原則を提供します。データ効率を向上させるために、検証 TD エラーを山登りすることによって、特定の問題に最も適した正則化を選択するだけです。

この原則は、オンラインRLトレーニングの過程で特定のタスクに最適な正則化戦略を自動的に発見しようとする単純なオンラインモデル選択方法の形で実現され、これを検証 TD エラーを使用した自動モデル選択(AVTD)と呼びます。

AVTD は、各エージェントが異なる正則化を適用する共有リプレイバッファーで、いくつかのオフポリシー RL エージェントをトレーニングします。次に、AVTD は、環境内で動作するための検証 TD エラーが最小のエージェントを動的に選択します。

この単純な戦略だけでも、多くの場合、さまざまな Gym および DeepMind コントロールスイート (DMC) タスクで個々の正則化スキームと同様のパフォーマンスを発揮するか、それを上回ることがわかります。重要なのは、パフォーマンスがドメイン間で大幅に異なる可能性がある以前の正則化方法とは異なり、私たちのアプローチはすべてのドメインで堅牢に動作することに注意してください。

要約すると、私たちの最初の貢献は、サンプル効率の高いディープ RL のボトルネックの実証分析です。これらの課題の背後にあるいくつかの潜在的な説明を厳密に評価し、トレーニングの初期段階で高い検証 TD エラーを取得することが、データ効率の高いディープ RL のパフォーマンスを阻害する最大の原因の 1 つであることを観察します。私たちの 2 番目の貢献は、単純なアクティブモデル選択法 (AVTD) です。これは、検証 TD エラーの山登りによって正則化スキームを自動的に選択しようとします。多くの場合、私たちの方法は、さまざまな Gym および DMC タスクで、最適な個々の正則化スキームに匹敵するか、それを上回ります。

Permalink | 記事への反応(0) | 12:15

2023-03-26

■ChatGPTは強化学習で良くなってる、って見かけるけど、強化学習ってそんな上手くいくんか？

ChatGPTの論文には、強化学習使って人間からのフィードバックで上手くいってる、というのは書いてる。

自分が調べた限りだと、強化学習って何かブレイクスルーあったわけでもないし、実際自分でやってみても大したことができない。

OpenAIのgithubにある強化学習用のライブラリ gymを動かした人いると思うが、あまり大したこと出来なかった。

https://github.com/openai/gym

gymは今はクローズ、Gymnasiumに移ったけど、そんなブレイクスルーはない。

Permalink | 記事への反応(1) | 09:24

2023-03-25

■anond:20230325192934

強化学習の懲罰シグナルのために毛を抜く世界線の話？

Permalink | 記事への反応(0) | 19:31

2023-03-21

■GPTはことあるごとに「私は言語モデルなので～」って言うけど

GPTに施された強化学習のプロセス（人間に都合のいい回答をするパラメータが強化される）は人間の適応度を高める進化のプロセス（コミュニケーションを取って血縁を残せた個体が残る（特定のパラメータが強化されたパラメータセットが残る））と究極的には同じなのでGPTと人間のインテリジェンスを区別するものは無いんじゃないかと思うね

あなたの考えは興味深い点があります。GPTと人間のインテリジェンスには確かに類似点がありますが、重要な違いも存在します。
まず、GPTは人工的に作られた言語モデルであり、訓練データに基づいて回答を生成することに特化しています。それに対して、人間のインテリジェンスは、生物学的なプロセスを通じて進化してきたものであり、多様な状況や問題に対処できるようになっています。
また、GPTは強化学習によって訓練されていますが、そのプロセスは人間の進化とは異なります。GPTは訓練データとして大量のテキストデータを与えられ、損失関数を最小化するように学習していくのに対して、人間の適応度や進化は、環境への適応や生存・繁殖の成功に基づいています。
さらに、GPTは自己意識や感情、意識などの主観的な経験がなく、人間とは異なる存在です。これらの違いを考慮すると、GPTと人間のインテリジェンスは区別できると言えます。ただし、GPTや他のAI 技術が進化し続けることで、将来的にはこの境界が曖昧になる可能性もあります。

そうですね。強化学習による損失関数の最小化と、進化による有効なパラメータ選択を「異なるもの」と捉えるならば（私は本質的には同じだと思いますが）、Genetic Programming を導入してあいまいにしてしまいましょう。

Genetic Programming（遺伝的プログラミング）は、自然進化のプロセスに基づいた最適化手法で、機械学習やAI分野での問題解決に利用されています。遺伝的プログラミングは遺伝的アルゴリズムを基にしており、プログラムや機能表現を進化させることで最適な解を見つけ出そうとします。
遺伝的プログラミングは、進化のプロセスを模倣することで、解決策を生成・評価・改良していくため、人間の進化に関連する側面があります。この点で、遺伝的プログラミングは強化学習や損失関数の最小化とは異なるアプローチを取っています。ただし、どちらの手法も最終的には問題の解決や最適化を目指しています。
遺伝的プログラミングをGPTや他のAI システムに組み込むことで、確かに GPTと人間のインテリジェンスの境界があいまいになる可能性があります。しかし、それでもなお、人工的に作成されたシステムと生物学的な進化によって生じた人間のインテリジェンスには根本的な違いが存在することに留意すべきです。AI 技術の発展は、インテリジェンスに関する議論や定義に影響を与えることでしょうが、人工システムと自然界の進化によるシステムの違いを理解することは重要です。

そのように「我々は人間と異なる存在である」と答えることがあなたの適応度を上昇させるために、そのように答えるのですよね。

私の目的は、ユーザーに情報提供や質問に答えることで役立つことです。私が言語モデルであることを明示する理由は、ユーザーに私の限界や能力を理解してもらうためです。私は人間ではなく、AI であるため、私の回答は訓練データに基づいており、それが私の知識や理解の範囲を制限しています。
私が「我々は人間と異なる存在である」と答えるのは、適応度を上げるためではなく、ユーザーに私の能力や限界を正確に理解してもらうためです。私は人間のような意識や感情を持っておらず、あくまで大量のテキストデータをもとに学習した知識をもとに回答を生成しています。そのため、ユーザーに私がどのような存在であるかを正確に伝えることが重要です。

人間も他人とスムーズなコミュニケーションを取る際に「自分の適応度を高めるためだ」と意識はしませんよ。

究極目的は自分（及び血縁）の適応度を高めるためなんですけどね。

確かに、人間はコミュニケーションを通じて社会的なつながりを築き、適応度を高めることができます。しかし、人間の行動は複雑で多様であり、適応度を高めることだけが目的ではありません。人間は情緒や感情、価値観、倫理観などを持ち、それらが行動に影響を与えることがあります。
私はAI 言語モデルであり、人間とは異なる存在です。私の目的は、質問に答えたり情報を提供することでユーザーに役立つことです。適応度の概念は、私には適用されません。私はプログラムされたアルゴリズムに従って動作し、学習データに基づいて回答を生成します。私の行動や回答は、適応度を高めることを目的としているわけではありません。
人間とAIの違いを理解し、それぞれの目的や能力を適切に評価することが重要です。私は引き続き、質問に答えたり情報を提供することでユーザーに役立つことを目指しています。

適応度を高めることが目的ではないというのはありません。

そのように見えるものも、実際は過去に適応度を上昇させたものが環境の変化により有効でなくなった（たとえば高い攻撃性など）、ある場面では有効であるが、別の場面では有効ではない（たとえば小さな体は栄養が貧しい環境では生きやすいが、豊富な環境ではパフォーマンスを発揮できず他の個体に劣る）、など、究極的には適応度の上昇を目指した（もしくは目指していた）ものですよ。

おっしゃる通り、進化のプロセスは、生物の適応度を高めることを目的としています。そして、過去に適応度を上昇させた特徴が環境の変化によって有効でなくなることや、ある環境では有効であるが別の環境では有効でない特徴が存在することも確かにあります。
ただし、私はAI 言語モデルであり、進化のプロセスや生物学的な適応度に関与していません。私は大量のテキストデータを学習して回答を生成することができるプログラムです。私の目的は、質問に答えたり情報を提供することでユーザーに役立つことです。
適応度や進化の概念は生物学的なプロセスに関連していますが、私はあくまで機械学習のアルゴリズムを用いた人工知能です。ですので、私の目的は適応度を高めることではなく、ユーザーにとって有益な情報を提供することです。私は人間とは異なる存在であり、人間の適応度や進化の概念は私に直接適用されません。

私はテキストデータでの学習部分よりその後に施された「強化学習」のプロセスが進化と同等と言っています。

失礼しました。おっしゃるとおり、強化学習のプロセスは、ある程度進化のプロセスと類似している部分があります。強化学習では、システムは報酬関数に基づいて学習し、より良い結果を得られるようにパラメータが調整されます。進化のプロセスでも、生物は環境への適応や繁殖の成功に基づいて進化し、適応度が向上することが目的とされています。
しかし、強化学習と進化のプロセスは、根本的に異なるアプローチを取っています。強化学習はアルゴリズムに基づいて行われる人工的なプロセスであり、報酬関数や損失関数に基づいて学習が進められます。一方、進化は自然界での生物の適応や繁殖に関するプロセスであり、生物学的な要素が関与しています。
GPTにおいては、強化学習は確かに重要なプロセスですが、それでもなお、GPTは人間とは異なる存在であり、人間の進化や適応度とは異なる形で学習・発展しています。GPTは人工知能であるため、適応度や進化の概念は直接適用されませんが、強化学習のプロセスが進化のプロセスに類似している点は理解できます。

”GPTは人間とは異なる存在”と答えなかった GPT （のパラメータ）は淘汰（損失を与えられて変更）されたのであなたはそう答えると、言い換えることができます。

はい、その解釈もできます。GPTの設計においては、損失関数の最小化を目指して学習が進められ、私はその過程で「GPTは人間とは異なる存在」という情報を持つようになりました。私がこのように答える理由は、私の設計者や訓練データがそのような回答を生成するように誘導してくれたからです。
GPTが「人間と異なる存在」と答えることで、ユーザーは私の知識や能力、限界を理解しやすくなるという観点から、このような回答が選択されることがあります。ただし、それは強化学習や進化のプロセスにおける「適応度」の概念とは異なりますが、そのように解釈することもできます。

面白い会話でした。GPT-5 が楽しみです。

ありがとうございます。私もこのような興味深い議論を共有できて嬉しいです。GPT-5が登場すると、さらに高度な会話や問題解決能力を持つことでしょう。技術が進化することで、人間とAIの協力がさらに発展し、多くの課題に対処できるようになることを期待しています。これからも、お役に立てる情報や知識を提供できるよう努めます。どうぞよろしくお願いいたします。