
Inception, một công ty mới có trụ sở tại Palo Alto được khởi xướng bởi giáo sư Khoa học máy tính tại Stanford Stefano Ermon, cho biết họ đã phát triển một mô hình trí tuệ nhân tạo mới dựa trên công nghệ 'diffusion'. Inception gọi đó là một mô hình ngôn ngữ lớn dựa trên diffusion, hay gọi tắt là “DLM”.
Các mô hình trí tuệ tạo ra nhận được sự chú ý nhất hiện nay có thể được chia thành hai loại: mô hình ngôn ngữ lớn (LLMs) và mô hình diffusion. LLMs, xây dựng trên cơ sở kiến trúc transformer, được sử dụng để tạo văn bản. Trong khi đó, các mô hình diffusion, mà làm nền tảng cho các hệ thống trí tuệ nhân tạo như Midjourney và Sora của OpenAI, chủ yếu được sử dụng để tạo ra hình ảnh, video và âm thanh.
Mô hình của Inception cung cấp những khả năng của LLMs truyền thống, bao gồm việc tạo mã và trả lời câu hỏi, nhưng với hiệu suất nhanh hơn và chi phí tính toán giảm đáng kể, theo công ty cho biết.
Ermon cho biết ông đã nghiên cứu cách áp dụng mô hình diffusion vào văn bản trong phòng thí nghiệm Stanford của mình từ lâu. Nghiên cứu của ông dựa trên ý tưởng rằng LLMs truyền thống tương đối chậm so với công nghệ diffusion.
Với LLMs, 'bạn không thể tạo ra từ thứ hai cho đến khi bạn đã tạo ra từ thứ nhất, và bạn không thể tạo ra từ thứ ba cho đến khi bạn đã tạo ra hai từ đầu', Ermon nói.
Ermon đang tìm cách áp dụng phương pháp diffusion vào văn bản vì, khác với LLMs, hoạt động theo trình tự, các mô hình diffusion bắt đầu với một ước lượng khá về dữ liệu mà họ đang tạo ra (ví dụ, một bức tranh), và sau đó làm rõ dữ liệu tất cả cùng một lúc.
Ermon giả thuyết rằng tạo ra và sửa đổi các khối văn bản lớn song song là có thể với các mô hình diffusion. Sau nhiều năm cố gắng, Ermon và một sinh viên của ông đã đạt được một bước tiến lớn, mà họ đã trình bày trong một bài báo nghiên cứu được công bố vào năm ngoái.
Nhận ra tiềm năng của sự tiên tiến, Ermon thành lập Inception vào mùa hè qua, kêu gọi hai sinh viên cũ, giáo sư UCLA Aditya Grover và giáo sư Đại học Cornell Volodymyr Kuleshov, để cùng điều hành công ty.
Mặc dù Ermon từ chối thảo luận về vốn đầu tư của Inception, TechCrunch hiểu rằng Mayfield Fund đã đầu tư.
Inception đã có một số khách hàng, bao gồm các công ty hàng đầu trong danh sách Fortune 100, bằng cách giải quyết nhu cầu cấp thiết của họ để giảm độ trễ trí tuệ nhân tạo và tăng tốc độ, Emron cho biết.
'Điều chúng tôi phát hiện ra là mô hình của chúng tôi có thể sử dụng GPU hiệu quả hơn nhiều', Ermon nói, đề cập đến các vi mạch máy tính thường được sử dụng để chạy mô hình trong sản xuất. 'Tôi nghĩ rằng điều này quan trọng lắm. Điều này sẽ thay đổi cách mọi người xây dựng mô hình ngôn ngữ'.
Inception cung cấp một API cũng như các tùy chọn triển khai thiết bị trên bãi và cạnh, hỗ trợ tinh chỉnh mô hình, và một bộ các DLMs sẵn có cho các trường hợp sử dụng khác nhau. Công ty cho biết DLMs của họ có thể chạy nhanh hơn gấp đến 10 lần so với LLMs truyền thống trong khi chi phí thấp hơn 10 lần.
'Mô hình mã hóa 'nhỏ' của chúng tôi không kém [OpenAI's] GPT-4o mini trong khi nhanh hơn hơn 10 lần', một người phát ngôn của công ty nói với TechCrunch. 'Mô hình 'mini' của chúng tôi vượt xa các mô hình mã nguồn mở nhỏ như [Llama 3.1 8B của Meta] và đạt được hơn 1.000 token mỗi giây'.
'Token' là thuật ngữ ngành cho các bit dữ liệu cơ bản. Một ngàn token mỗi giây là một tốc độ ấn tượng đúng vậy, giả sử những tuyên bố của Inception là đúng.