
本講座の全体像を紹介します
本講座によってどんなことができるようになるかを紹介します
本講座を受講する際の注意事項を説明します
オープンソースAIモデルとはどのようなもので、どのような注意点が存在するのかを説明します
OpenAIのサービスなどの外部サービスと、自分でモデルを動作させる場合との比較を行います
セキュリティ観点やコスト観点、運用観点などから、オープンソースAIモデルを使用するメリットとデメリットを網羅的に説明します
少し先の未来において、オープンソースAIモデルを学ぶことがどのように重要になっていくのかを説明します
オープンソースAIモデルが公開されているプラットフォームであるHugging Faceについて学び、具体的なタスクの多様な例を紹介します
WebページをもとにHugging Faceを実際に触ってみながら、具体的にどのようなことができるのかの説明をします
CPUやGPUなどといった多様な計算資源について学ぶとともに、それらのコスト感についても説明します
CLIPという画像と自然言語のベクトルの距離を測ることで画像認識を行うモデルの仕組みを紹介します
デモに使用するGoogleColabの操作方法を紹介します
CLIPをGoogle Colabで実際に動かし、画像認識に挑戦します
画像生成モデルとして最も有名なもののひとつであるStable Diffusionの概要を学びます
Stable Diffusionのモデル構造を紹介し、潜在拡散過程などの工夫点を理解します
Stable DiffusionをGoogle Colabで実際に動かし、画像生成に挑戦します
ELYZA社が公開している日本語版Llama2を用いて文章生成を行う仕組みの概要を紹介します。
日本語版Llama2をGoogle Colabで実際に動かし、文章生成に挑戦します
音声文字起こしモデルとして最も有名なもののひとつであるWhisperの概要を学びます
Whisperの処理の中で実行されている音声波形からメルスペクトログラムを作成する仕組みを紹介します
WhisperをGoogle Colabで実際に動かし、音声文字起こしに挑戦します
本講座においてどのような観点から大規模言語モデルに関しての深掘りを行うかの説明をします
次の単語を再起的に言語モデルを用いて予測することで文章生成が実現されているということを理解します
大規模言語モデルを理解する上で土台となるニューラルネットワークの仕組みについて説明します
大規模言語モデルにおいて用いられているTransformerというモデル構造について紹介し、挙動を理解します
自然言語をニューラルネットワークで扱うために必要となってくる前処理であるトークン化(tokenize)について学びます
大規模言語モデルを学習する際の具体的な手順を学びます
大規模言語モデルを学習する際の1ステップ目であるPretrainingについて学びます
大規模言語モデルを学習する際の2ステップ目であるInstruction Tuningについて学びます
大規模言語モデルを学習する際の3ステップ目であるRLHF(Reinforcement Learning from Human Feedback)について学びます
Instruction Tuningを実際に行うにあたり、まずはInstruction Tuningの効果についておさらいします
ファインチューニングを行う際にどんなデータを使用し、具体的に何を意識する必要があり、どのような工夫が取られるのかを学びます
学習パラメータ数を削減する工夫のひとつであるLoRAの概要を説明します
LoRAの具体的な内容をステップを踏んでひとつずつ説明します
LoRAと他のファインチューニング手法を比較し、どのような点においてLoRAが優れているのかを学びます
学習効率化のための工夫のひとつである量子化の概要を説明します
コンピュータ上でのビットを用いた数値の表現形式であるbfloat16とfp16について学びます
Google Colabで実際にInstruction Tuningに挑戦し、言語モデルの口調の矯正を行います
大規模言語モデルの問題点を紹介し、その問題点に対しての解決策となるRAG(Retrieval-Augmented Generation)の導入を行います
ドキュメントQ&Aを行うにあたって用いられるRAGの仕組みの概要を説明します
ドキュメントQ&Aの際に実際に使用されるプロンプトの例を紹介します
質問に対して関連する文章をどのように検索してくるのかの仕組みを説明します
文章のベクトル化の仕組みと、多様なベクトル化モデルの種類やそれらの性能一覧表を紹介します
ドキュメントQ&Aを行う際に便利なライブラリであるLlamaIndexの紹介をします
Google Colabを用いて、実際にオープンソースAIモデルを活用しながらドキュメントQ&Aを実践します
本講座で学んだ内容や取り組んだ事柄の振り返りを行います
このコースでは、実践的な演習を通じてオープンソースのAIモデルの使用法を学びます。これには、画像認識、画像生成、文書生成、音声認識といった幅広いアプリケーションに対する基本から応用までの技術が含まれます。
さらに、注目度が高い文書生成においては、独自のデータセットを使ってAIモデルの追加学習(ファインチューニング)を行ったり、PDFファイルなどを用いた対話機能の拡張も実施します。
また、HuggingFaceというプラットフォームを利用する方法も学びます。これにより、世界中で共有されているさまざまなモデルを自分で活用する能力が身につき、多岐にわたる用途に柔軟に対応するスキルを獲得できます。
多様なモデルの理論を学ぶだけでなく、実際に自分で作り動かすことで、楽しさや成果、今後の自分たちの業務などへのつながりを実感することを目指しています。
講義の内容
Section1
本講座の導入を行います
Section2
オープンソースAIモデルとはどういったものなのかを学びます
Section3
Hugging Faceを利用して、実際にオープンソースAIモデルを動かしながら画像認識・画像生成・文章生成・音声認識の仕組みを学びます
Section4
大規模言語モデルの仕組みに関して深掘りを行い、モデルの挙動およびモデルを学習するための手順を学びます
Section5
自分たちのデータを使用してモデルを実際にファインチューニングし、自分なりにAIモデルをカスタマイズしていきます
Section6
ドキュメントQ&Aの仕組みを学び、オープンソースAIモデルを用いて実際に動作させます
Section7
これまでのセクションの振り返りを行います
スライドは下記を使用:
CREDITS: This presentation template was created by Sldiesgo and includes icon by Flaticon, infographics & images by Freepik and content by Eliana Delacour