nprofile1qy2hwumn8ghj7un9d3shjtnddaehgu3wwp6kyqpq0ke85u7cw7latemv8l72dcd3s729x8n9yjw3eaxrqvc0w7pertqspwrsa7 (nprofile…rsa7) "Вот как раз "думающие" скорее можно. DeepSeek R1 (дистиллированный) ведёт себя неплохо в рассуждениях. Но косячит со знаниями.
А "знающие" - скорее нет. Если не придумают как сильно оптимизировать, новую архитектуру какую-то."
тут еще поле непаханое. на самом деле человек тоже со знаниями регулярно косячит, если только не специализируется сильно в какой-то конкретной области. вот тут компактные модели с гигантским контекстом могут начать крыть все остальное, если их научат лазить в документацию на ходу и шерстить ее как следует (и, возможно, в много проходов и переходов на другую релевантную документацию). а может и новые виды баз данных появятся с выжимками из доков, пригодными для оперативного всасывания моделями, колупающими ту или иную область деятельности.
и тогда нужна будет небольшая качественно мыслящая модель и большая-большая база данных, а не как сейчас. все эти попытки впихнуть невпихуемое в оперативку выглядят грустно и есть ощущение, что это дорога в тупик
"Будет круто, если со временем у нас появятся плашки по терабайту, да ещё и шины будут сделаны так, что ускоритель, который матрицы множит имел к ним быстрый доступ."
в этом очень сомневаюсь. где-то читал, что плашки плохо совместимы быстрой памятью, в какой-то момент длина проводников становится ультра-критичной, и выдержать ее невозможно ни в каких разъемах, только точно впаивать.