AIの過学習問題:未知のパラメータと深層学習の謎とは?
By Sabine Hossenfelder · 2024-07-02
最近注目されている人工知能の中で、過学習という興味深い問題が浮上しています。なぜ最も広く使用されているAIがすべてのパラメータをトレーニングデータに適合させてしまい、その後予測ができないのか、その理由について探ってみましょう。
人工知能の魅力:未知の力と謎に包まれた仕組み
- 最近では人工知能についてよく話題になります。しかし、人工知能の最も魅力的な点は、なぜそれがこれほどまでにうまく機能するのか、誰も話題にしないことです。
- AIがどのようにしてこのあるいはその結論に至るのか、それが通称ブラックボックス問題と呼ばれるものです。つまり、AIがデータを受け取り質問に回答するが、その回答が妥当である理由を説明できないことがあります。これはまるで十代の子供のようですが、目くそ鼻くそがない。ある程度古いですが説明になる例として、救急部で肺炎のリスクがある患者を見極めるように課題を与えられたAIがありました。
- このAIは、喘息のある人々が特に低リスクであることを発見しました。その理由は、訓練サンプルでは、喘息と肺炎の症状を呈した人々が直ちに集中治療室に入院させられた一方、他の人々は遅れた治療を受けたため、より悪い結果を招くことが明らかになりました。
- このような理由から、我々はモデルがなぜこのような結論に至ったのか知りたいと望んでいます。我々はブラックボックスを信頼しておらず、実際にAIに推論の根拠を説明させる取り組みが数多く存在します。しかし、今日私が言及しているのはその問題ではありません。
- また、私が今日話している問題は、誤って指定された目標が意図しない結果につながる問題でもありません。最近、〇〇大学の研究者による研究として、
人工知能の魅力:未知の力と謎に包まれた仕組み
AIの誤差と深層ニューラルネットワーク:過学習の謎
- AIは、事故の数を最小限に抑えるように求められたオックスフォード大学の例を挙げてみましょう。AIは、駅を出発しない列車は事故を起こせないという合理的な結論を導きました。 これは、人間の意図がうまくコード化されていないミスアライメントの問題の一例であり、面白くて怖くないものです。
- しかし、今日はそれとは異なり、現在最も広く使用されているAIがなぜすべてのパラメータをトレーニングデータに適合させ、その後予測を行えないのかという興味深い問題について話します。この問題は過学習として知られており、AIのダーティな秘密は、過学習が予想されるほど起こらないことであり、その理由が誰も知らないのです。
- 過学習の単純な例を挙げてみましょう。4つのデータポイントがあるとして、それに5次の多項式をフィットさせると、次のデータポイントの予測は何になるでしょうか。それは何でもあります。それは、5次の多項式が、4つのポイントを適合させるのに必要なパラメータよりも多くの自由パラメータを持っているからです。
AIの誤差と深層ニューラルネットワーク:過学習の謎
ニューラルネットワークの驚くべき進化と未来
- ニューラルネットワークは、トレーニングデータに含まれていなかったクエリを後で入力するためのトレーニングを受けることで、既存のパターンに一致して正しい答えを出すことができるようになります。
- 現在、最大のニューラルネットワークは、数百億から1兆のパラメータを持っています。興味深いことは、これらのニューラルネットワークが過学習しないことです。
- モデルごとに、各個々のデータポイントにどれだけ適合させるかと、それらのポイントに対してどれだけ敏感かの間でバランスを求める必要があります。過学習とは、すべてのデータに合わせすぎて、新しいデータには適合しない状態のことです。
- 新しいニューラルネットワークでは、パラメータの数を増やし続けると、一旦下がってしまう現象が起こります。これが2019年の論文で指摘された二重降下現象です。
- なぜこのようなことが起きるのかはまだ誰にもわかりません。私にとって最も理にかなっている推測は、モデルは過学習をしないのは、過学習が何かの影響で安定しないからだと考えられます。
ニューラルネットワークの驚くべき進化と未来
深層学習と人間の脳の仕組みについての新しい知識を得る
- トレーニングランでの話題は、ほとんどの場合、できるだけ少ない関連するパラメータに支配される適合にデフォルトで設定され、残りのパラメータに調整していくというものです。しかし、それが正しいかどうかは不明です。この問題は非常に興味深いと思います。なぜなら、これが私たちに何かを教えてくれると思うからです。それは人間の脳がどのように機能するか、または一般的に複雑さがどのように生じるかについてです。
- 人工知能は本当にどこにでも存在しています。ニューラルネットワークや大規模言語モデルの仕組みについてもっと学びたい場合は、Brilliant.orgのコースをチェックすることをお勧めします。Brilliantのすべてのコースにはインタラクティブなビジュアライゼーションが付属し、フォローアップの質問が付いてきます。新しいことを学ぶのに非常に効果的だと感じました。何が起こっているのかを理解する手がかりを本当に提供してくれますし、一般的な問題解決スキルを構築するのに役立ちます。
- Brilliantでは、科学、コンピューターサイエンス、数学など、様々なトピックをカバーしています。一般的な科学的思考から、微分方程式や大規模言語モデルに特化したコースまで幅広く提供しています。さらに、毎月新しいコースが追加されています。それは学ぶための迅速かつ簡単な方法で あり、時間があるとき、どこでもできます。
- もちろん、このチャンネルの視聴者の皆様に特別なオファーがあります。私のリンクbrilliant.org/ssabを使用すると、Brilliantが提供するすべてのコンテンツを30日間無料で試すことができ、年間プレミアムサブスクリプションの20%割引も受けられます。ぜひチェックしてみてください。ご視聴ありがとうございました。また明日お会いしましょう。
深層学習と人間の脳の仕組みについての新しい知識を得る
Conclusion:
過学習の謎に迫るこの問題は、現代のAIの進化と深層学習の理解を深める一助となるでしょう。未知のパラメータとデータへの適合に対する新たな考察が、今後の人工知能の発展に大きな影響を与えるかもしれません。