Chatbot mới từ Deepseek đã tạo ra một tác động đáng kể trong ngành công nghiệp AI, tự giới thiệu với một lời hứa về câu trả lời đáng ngạc nhiên cho bất kỳ câu hỏi nào. Sự gia nhập táo bạo này vào thị trường thậm chí đã góp phần vào một trong những khoản giảm giá cổ phiếu lớn nhất của Nvidia, báo hiệu ảnh hưởng ngày càng tăng của Deepseek.
Hình ảnh: Ensigame.com
Điều phân biệt mô hình của DeepSeek là các phương pháp đào tạo và kiến trúc sáng tạo của nó, bao gồm:
Dự đoán đa điểm (MTP): Kỹ thuật này cho phép mô hình dự đoán nhiều từ cùng một lúc bằng cách phân tích các phân đoạn câu khác nhau, tăng cường cả độ chính xác và hiệu quả.
Hỗn hợp các chuyên gia (MOE): Sử dụng 256 mạng thần kinh, với tám mạng được kích hoạt trên mỗi mã thông báo, phương pháp này tăng tốc độ đào tạo AI và tăng hiệu suất.
Sự chú ý tiềm ẩn đa đầu (MLA): Cơ chế này tập trung vào các phần câu quan trọng, liên tục trích xuất các chi tiết chính để đảm bảo các sắc thái quan trọng không bị bỏ lỡ.
Deepseek, một công ty khởi nghiệp nổi tiếng của Trung Quốc, tuyên bố đã phát triển mô hình AI cạnh tranh của mình, Deepseek V3, với chi phí tối thiểu là 6 triệu đô la, chỉ sử dụng 2048 bộ xử lý đồ họa.
Hình ảnh: Ensigame.com
Tuy nhiên, một cái nhìn sâu sắc hơn bằng cách bán phân tích cho thấy Deepseek vận hành một cơ sở hạ tầng tính toán rộng lớn, sử dụng khoảng 50.000 GPU phễu NVIDIA, bao gồm các mô hình khác nhau như H800, H100 và H20. Các tài nguyên này được trải rộng trên nhiều trung tâm dữ liệu, không chỉ được sử dụng để đào tạo AI mà còn cho nghiên cứu và mô hình hóa tài chính. Tổng số tiền đầu tư của công ty vào các máy chủ ở mức khoảng 1,6 tỷ đô la, với chi phí hoạt động khoảng 944 triệu đô la.
Deepseek là một công ty con của quỹ đầu cơ của Trung Quốc, được thành lập như một bộ phận tập trung AI riêng vào năm 2023. Không giống như nhiều công ty khởi nghiệp dựa vào điện toán đám mây, Deepseek sở hữu các trung tâm dữ liệu của mình, cung cấp quyền kiểm soát hoàn toàn đối với tối ưu hóa mô hình AI và cho phép đổi mới nhanh chóng. Công ty vẫn tự tài trợ, tăng cường sự nhanh nhẹn và tốc độ ra quyết định.
Hình ảnh: Ensigame.com
Ngoài ra, Deepseek thu hút tài năng hàng đầu từ các trường đại học hàng đầu Trung Quốc, cung cấp mức lương vượt quá 1,3 triệu đô la hàng năm, mặc dù họ không thuê các chuyên gia nước ngoài.
Mặc dù yêu cầu đào tạo Deepseek V3 của Deepseek chỉ với 6 triệu đô la, con số này chỉ chiếm mức sử dụng GPU trong quá trình đào tạo trước và không bao gồm nghiên cứu, tinh chỉnh mô hình, xử lý dữ liệu hoặc chi phí cơ sở hạ tầng. Kể từ khi bắt đầu, Deepseek đã đầu tư hơn 500 triệu đô la vào sự phát triển của AI, tận dụng cấu trúc nhỏ gọn của nó để nhanh chóng thực hiện các đổi mới.
Hình ảnh: Ensigame.com
Trường hợp của Deepseek minh họa rằng một công ty AI độc lập, được tài trợ tốt có thể thách thức các nhà lãnh đạo trong ngành. Tuy nhiên, các chuyên gia nhấn mạnh rằng thành công của công ty bắt nguồn từ các khoản đầu tư đáng kể, đột phá kỹ thuật và một nhóm mạnh mẽ, thay vì "ngân sách cách mạng" để phát triển AI. Tuy nhiên, chi phí của Deepseek vẫn thấp hơn so với các đối thủ cạnh tranh, với việc đào tạo R1 có giá 5 triệu đô la so với 100 triệu đô la của TATGPT4O.