Новый чат -бот из DeepSeek оказал значительное влияние на индустрию искусственного интеллекта, представляя себя обещанием удивительного ответа на любой вопрос. Этот смелый вход на рынок даже способствовал одному из крупнейших падений цен на акции Nvidia, что сигнализирует о растущем влиянии Deepseek.
Изображение: Ensigame.com
Что отличает модель Deepseek, так это ее инновационная архитектура и методы обучения, которые включают в себя:
Multi-Token Production (MTP): этот метод позволяет модели прогнозировать несколько слов одновременно, анализируя различные сегменты предложений, повышая как точность, так и эффективность.
Смесь экспертов (MOE): используя 256 нейронных сетей, с восемью активированными на токен, этот подход ускоряет обучение ИИ и повышает производительность.
Многоголовое скрытое внимание (MLA): этот механизм фокусируется на критических частях предложения, неоднократно извлекая ключевые детали, чтобы гарантировать, что важные нюансы не пропускаются.
DeepSeek, известный китайский стартап, утверждает, что разработала свою конкурентную модель искусственного интеллекта DeepSeek V3 с минимальной стоимостью 6 миллионов долларов, используя всего 2048 графических процессоров.
Изображение: Ensigame.com
Тем не менее, более глубокий взгляд на полуанализа показывает, что DeepSeek управляет обширной вычислительной инфраструктурой, используя около 50 000 графических процессоров Nvidia Hopper, включая различные модели, такие как H800, H100 и H20. Эти ресурсы распространяются по нескольким центрам обработки данных, используемые не только для обучения искусственного интеллекта, но и для исследования и финансового моделирования. Общая инвестиция компании в серверы составляет около 1,6 млрд. Долл. США, при этом эксплуатационные расходы около 944 миллионов долларов.
DeepSeek является дочерней компанией китайского хедж-фонда, созданного как отдельное подразделение, ориентированное на AI в 2023 году. В отличие от многих стартапов, которые полагаются на облачные вычисления, DeepSeek владеет своими центрами обработки данных, обеспечивая полный контроль над оптимизацией модели искусственного интеллекта и обеспечивая быстрые инновации. Компания остается самофинансированной, повышая свою гибкость и скорость принятия решений.
Изображение: Ensigame.com
Кроме того, Deepseek привлекает лучших талантов от ведущих китайских университетов, предлагая зарплату, превышающие 1,3 миллиона долларов в год, хотя он не нанимает иностранных специалистов.
Несмотря на претензию DeepSeek о обучении DeepSeek V3 всего за 6 миллионов долларов, эта цифра учитывает только использование графических процессоров во время предварительного обучения и не включает в себя исследования, уточнение модели, обработку данных или затраты на инфраструктуру. С момента своего начала DeepSeek инвестировала более 500 миллионов долларов в разработку ИИ, используя свою компактную структуру для быстрого внедрения инноваций.
Изображение: Ensigame.com
Дело Deepseek иллюстрирует, что хорошо финансируемая независимая компания по искусственному ИИ может бросить вызов лидерам отрасли. Тем не менее, эксперты подчеркивают, что успех компании связан с существенными инвестициями, техническими прорывами и сильной командой, а не «революционным бюджетом» для развития ИИ. Тем не менее, затраты DeepSeek по -прежнему ниже, чем у его конкурентов, причем обучение R1 стоило 5 миллионов долларов по сравнению с CatGPT4O в 100 миллионов долларов.