s_ota on Nostr: Scaling Law ...
Published at
2023-03-25 03:23:40Event JSON
{
"id": "ad4177a47e153050c9406e12db689a5212f5739182b1b4b4697818f61a0daf04",
"pubkey": "8721cdf007e798f80549a4bf174b973dc388e01952f0a952f5473c2cf84a7f60",
"created_at": 1679714620,
"kind": 1,
"tags": [
[
"e",
"0d6c5509a1b35c3dcf037b42ff1f89c53d192476b4ebf92fb8f5796d9c49e851",
"",
"reply"
],
[
"p",
"eb119234c467ac9d2ffea5b7284f3a74bd04287a12cfd58a22d19626434cddf2"
]
],
"content": "Scaling Law は、計算資源(FLOPS)、パラメータ(NNの大きさ)、データセット(Wikipediaなどのテキスト)を増加させると、べき乗則でスムーズに言語モデルの性能が向上するという話です。\n\n(並列化を考慮していない)普通のアルゴリズムだと、どこかがボトルネックになってべき乗則がなりたたなくなる(グラフがフラットになる)ことが多いですが、Transformer の場合は今の所それが見つかっていない、という風に自分は理解しています。\n\nこちらも参考になるかもしれません。\n\nhttps://www.slideshare.net/DeepLearningJP2016/dlscaling-laws-for-neural-language-models",
"sig": "bb2a2847e154873437417e0cd3b6ca1598bf0fd28ae62474d7273d30e6a542ece5a84a0fded82b1615e64564fa61b516c7ae00d1318687f8f61f73c8a22152b6"
}