24/08/16 03:09:06.20 mQScfB5o.net
他人の組んだやつを少しいじったりはできるけど、パラメータ数とかのいじったりできんわ。誰かに聞きたいんやけどこんなやつ結構多いと思うんよ
3:デフォルトの名無しさん
24/08/16 03:14:20.62 Rc0NIZPv.net
何が理解できないの?
4:デフォルトの名無しさん
24/08/16 14:23:36.24 ckm1V/4U.net
ところで開発環境はどうしてるの?
でっかいモデル学習させるのに必要なGPUって高いやろ?
ちっこいモデルで我慢するのかな?
5:デフォルトの名無しさん
24/08/16 15:00:20.27 mQScfB5o.net
>>3
いろいろ理解できてないから分からないとすごく言いたい。
前提として今まで趣味でCNNとかをkerasで組んでます。
Transformerはtorchになるからそこで少しつまずいているのもあります。
__init__とforwardとかも__init__が定義でforwardが処理みたいなことぐらいしか理解できない。
self-attentionのqkvとかもよくわかってない。ネットで調べても数式の解説とかが多くて、私には分からんかった。高卒なので線形代数とか分からない。
漢検5級の人が1級の勉強をしている感覚です。ところどころわかるけど、全体通すと分からないです。
6:デフォルトの名無しさん
24/08/16 15:09:07.96 mQScfB5o.net
>>4
Python開発環境は、Python 3.9.0を使用しています。Visual Studio Codeを仮想環境はvenvで管理しています。OSはWindows 10です。
CPUはryzen9 5900x
メモリ 96GB
グラボ RTX 3090
今は個人向けグラボで学習できる範囲でしています。
1bぐらいのモデル学習させてみたいです
7:デフォルトの名無しさん
24/08/16 19:58:02.10 ckm1V/4U.net
>>6
ちっこいモデルでだよね
さくらのサーバとか契約してる人はいないのかな?
8:デフォルトの名無しさん
24/08/16 22:07:23.46 YMpAdowz.net
>>7
ちっこいモデルを作れないので考えてないです。
さくらインターネット系のレンタルグラボの契約してる人いないです。
9:デフォルトの名無しさん
24/08/17 19:18:21.57 jNc9Eb8A.net
>>5
ちょっとその程度だとアドバイスのしようがない
頑張って勉強してくれ
10:デフォルトの名無しさん
24/08/18 16:04:34.44 PPBUqN/p.net
興味で数年前に理解したがすぐ忘れてしまったが生活に支障はないよ
qkvとか確かにあったね。それが成り立つように学習するってだけでしょ
11:デフォルトの名無しさん
24/08/18 16:57:32.92 aC53Nw8u.net
>すぐ忘れてしまったが
>生活に支障はないよ
ほんと最近これ
12:デフォルトの名無しさん
24/08/26 21:45:56.55 Zj/yRZqN.net
Transformerの資料はNLPを想定して書かれてるから余計に混乱する
GPTなら解るが、Transformerは汎用性が高いのに