Stable Diffusion so với DALL- E 2: Lựa chọn AI tạo hình ảnh nào tốt hơn?

Stable Diffusion và DALL·E 2 là hai trong số các mô hình tạo hình ảnh AI tốt nhất hiện nay và chúng hoạt động theo cách gần giống nhau. Cả hai mô hình đều được đào tạo trên hàng triệu hoặc hàng tỷ cặp văn bản-hình ảnh. 

Ngoài vai trò là mô hình AI, Stable Diffusion và DALL·E 2 đều có các ứng dụng có khả năng nhận lời nhắc văn bản và tạo ra một loạt hình ảnh phù hợp. Vậy bạn nên sử dụng ứng dụng nào trong số những ứng dụng này? Hãy đi sâu vào.

Xem ngay: ChatGPT và Bard: Sự khác biệt giữa hai AI này là gì?

Stable Diffusion và DALL·E 2 hoạt động như thế nào?

Để tạo hình ảnh, Stable Diffusion và DALL·E 2 đều dựa vào một quá trình gọi là khuếch tán . Trình tạo hình ảnh bắt đầu với một trường nhiễu ngẫu nhiên, sau đó chỉnh sửa nó theo một loạt các bước để phù hợp với cách diễn giải lời nhắc của nó . Bằng cách bắt đầu với một tập hợp tiếng ồn ngẫu nhiên khác nhau mỗi lần, họ có thể tạo ra các kết quả khác nhau từ cùng một lời nhắc. Nó giống như việc bạn nhìn lên bầu trời đầy mây, tìm thấy một đám mây trông giống một con chó và sau đó bạn có thể búng ngón tay để khiến nó ngày càng giống một con chó hơn.

Một đám mây hình con chó lơ lửng trên bầu trời trong xanh—từ trên cùng bên trái, đi theo chiều kim đồng hồ, ở 10 bước, 20 bước, 40 bước và 120 bước.

Mặc dù cả hai mô hình đều có nền tảng kỹ thuật tương tự nhau nhưng có rất nhiều điểm khác biệt giữa chúng.

AI ổn định (nhà sản xuất Khuếch tán ổn định) và OpenAI (nhà sản xuất DALL·E 2) có những cách tiếp cận triết học khác nhau về cách hoạt động của các loại công cụ AI này. Họ cũng được đào tạo về các tập dữ liệu khác nhau, với các quyết định thiết kế và triển khai khác nhau được đưa ra trong quá trình thực hiện. Vì vậy, mặc dù bạn có thể sử dụng cả hai để làm cùng một việc nhưng chúng có thể mang lại cho bạn những kết quả hoàn toàn khác nhau.

Đây là lời nhắc tôi đã đề cập ở trên trong DreamStudio (Stable Diffusion):

Và đây là trong DALL·E 2:

Một điều khác cần lưu ý: DALL·E 2 chỉ khả dụng thông qua OpenAI (hoặc các dịch vụ khác sử dụng API của nó). Khuếch tán ổn định thực sự là một số mô hình mã nguồn mở. Bạn có thể truy cập nó thông qua ứng dụng DreamStudio của Stability AI, nhưng bạn cũng có thể tải xuống phiên bản Stable Diffusion mới nhất, cài đặt nó trên máy tính của riêng bạn và thậm chí đào tạo nó trên dữ liệu của riêng bạn. (Đây là cách nhiều dịch vụ như hình đại diện AI của Lensa hoạt động.)

Tôi sẽ tìm hiểu ý nghĩa của tất cả điều này một chút sau, nhưng để dễ so sánh, tôi sẽ chủ yếu so sánh các mô hình khi chúng được truy cập thông qua các ứng dụng web chính thức của chúng.

Tổng quan về Stable Diffusion so với DALL·E 2

Stable Diffusion và DALL·E 2 được xây dựng bằng cách sử dụng các công nghệ tương tự nhưng chúng khác nhau ở một số điểm quan trọng. Đây là một bản tóm tắt ngắn gọn về mọi thứ, nhưng hãy đọc tiếp để biết chi tiết.

 

  Stable Diffusion DALL·E 2
Chất lượng Hình ảnh đặc biệt do AI tạo ra Hình ảnh đặc biệt do AI tạo ra
Dễ sử dụng Có nhiều lựa chọn nhưng có thể phức tạp Nhập lời nhắc, nhấp vào nút
Quyền lực và kiểm soát Bạn vẫn phải viết lời nhắc nhưng bạn có nhiều quyền kiểm soát đối với quá trình tổng hợp Bạn vẫn phải viết lời nhắc nhưng bạn có nhiều quyền kiểm soát đối với quá trình tổng hợp

Cả hai đều tạo ra những hình ảnh tuyệt vời do AI tạo ra

Cả Stable Diffusion và DALL·E 2 đều có khả năng tạo ra những hình ảnh đáng kinh ngạc do AI tạo ra. Nếu buộc phải nhấn mạnh điểm khác nhau giữa 2 phần mền, chúng tôi sẽ nói rằng:

  • Theo mặc định, Stable Diffusion có xu hướng hướng tới hình ảnh chân thực hơn, trong khi DALL·E 2 có thể trừu tượng hơn.
  • DALL·E 2 đôi khi có thể tạo ra kết quả tốt hơn từ những lời nhắc ngắn hơn so với Stable Diffusion. 

Mặc dù vậy, một lần nữa, kết quả bạn nhận được thực sự phụ thuộc vào những gì bạn yêu cầu và mức độ ” kỹ thuật khẩn cấp ” mà bạn sẵn sàng thực hiện.

Stable Diffusion

 

DALL·E 2

DALL·E 2 dễ sử dụng hơn

DALL·E 2 cực kỳ đơn giản để sử dụng. Nhập lời nhắc, nhấn Generate và bạn sẽ nhận được bốn kết quả. Nó giống như một món đồ chơi thú vị.

Điều đó không có nghĩa là bạn không thể tìm hiểu sâu hơn với DALL·E 2. Bạn có thể tải lên hình ảnh của riêng mình để sử dụng làm lời nhắc tạo nhiều biến thể hơn hoặc sử dụng trình chỉnh sửa để vẽ (thay thế các bit của hình ảnh bằng AI- các phần tử được tạo) hoặc outpaint (mở rộng hình ảnh bằng các phần tử do AI tạo). Chỉ là có rất nhiều đai ốc và chốt được giấu đi. Stable Diffusion ít thân thiện với người dùng hơn một chút. Mặc dù bạn có thể nhập lời nhắc, nhấn Dream và thực hiện tất cả các thao tác vẽ vào và vẽ ngoài tương tự, nhưng ở đây có nhiều tùy chọn hơn mà bạn không thể không thắc mắc.

Ví dụ: bạn có thể chọn một phong cách (Nâng cao, Anime, Nhiếp ảnh, Nghệ thuật kỹ thuật số, Truyện tranh, Nghệ thuật giả tưởng, Phim tương tự hoặc Neon Punk). Ngoài ra còn có hai hộp nhắc: một dành cho lời nhắc thông thường và một dành cho lời nhắc tiêu cực, những thứ bạn không muốn nhìn thấy trong hình ảnh của mình. Và đó là tất cả trước khi bạn xem xét các tùy chọn nâng cao cho phép bạn đặt cường độ nhanh chóng, số bước tạo mà mô hình thực hiện, mô hình nào được sử dụng và thậm chí cả hạt giống mà mô hình sử dụng.

Tất nhiên, việc cài đặt và đào tạo phiên bản Stable Diffusion của riêng bạn là một câu chuyện hoàn toàn khác.

Stable Diffusion mạnh hơn

Để dễ sử dụng, DALL·E 2 không cung cấp cho bạn nhiều tùy chọn. Bạn có thể tạo hình ảnh từ một lời nhắc, và… đại loại là vậy. Nếu bạn không thích kết quả, bạn phải điều chỉnh lời nhắc và thử lại. Một số dịch vụ khác sử dụng API của DALL·E 2, như NightCafé , cung cấp các tùy chọn kiểu và trình chỉnh sửa lời nhắc nâng cao với các thuật ngữ được đề xuất để sử dụng, nhưng bạn vẫn chỉ định hình đầu ra bằng lời nhắc văn bản.

Stable Diffusion (trong mỗi lần lặp lại) mang đến cho bạn nhiều tùy chọn và khả năng kiểm soát hơn. Như tôi đã đề cập ở trên, bạn có thể đặt số bước, khởi tạo ban đầu và độ mạnh của lời nhắc cũng như bạn có thể tạo một lời nhắc phủ định, tất cả đều có trong ứng dụng web DreamStudio.

Và ngay cả trong NightCafé, cũng hỗ trợ Khuếch tán ổn định, bạn sẽ có nhiều tùy chọn hơn so với DALL·E 2. Ngoài khả năng đặt kiểu và sử dụng trình chỉnh sửa lời nhắc nâng cao, bạn có thể kiểm soát hạt giống nào được sử dụng và phương pháp lấy mẫu được sử dụng bởi thuật toán, trong số những thứ khác.

Ngoài ra, chúng tôi xin giới thiệu qua các bộ máy PC phục vụ cho công việc AI, Stable Diffusion, DALL·E 2 chuyên nghiệp, cao cấp nhất hiện nay.

Cuối cùng, nếu bạn muốn xây dựng một AI tổng quát được đào tạo tùy chỉnh trên dữ liệu cụ thể, chẳng hạn như khuôn mặt, biểu tượng của chính bạn hoặc bất kỳ thứ gì khác, bạn có thể làm điều đó với Stable Diffusion. Điều này cho phép bạn tạo một trình tạo hình ảnh luôn tạo ra một loại hoặc kiểu hình ảnh cụ thể. Thông tin cụ thể về cách bạn thực hiện việc này vượt xa phạm vi so sánh này, nhưng vấn đề là đây là điều mà Stable Diffusion được thiết kế để thực hiện mà DALL·E 2 không thể thực hiện được từ xa.

Stable Diffusion thắng về giá

Định giá của DALL·E 2 cực kỳ đơn giản. Mỗi lời nhắc văn bản tạo ra một bộ bốn hình ảnh và tiêu tốn một khoản tín dụng. Tín dụng có giá 15 USD cho 115, tức là ~ 0,13 USD/lời nhắc hoặc ~ 0,0325 USD/hình ảnh. Mỗi vòng sơn ngoài hoặc sơn trong cũng tạo ra bốn tùy chọn và tiêu tốn một tín dụng. (Nếu bạn đăng ký DALL·E 2 trước ngày 6 tháng 4 năm 2023 thì sẽ có bản dùng thử miễn phí và bạn nhận được 40 tín dụng miễn phí mỗi tháng. Rất tiếc, tùy chọn đó hiện không còn nữa.)

Giá của Stable Diffusion phức tạp hơn rất nhiều. 

Giả sử bạn đang truy cập nó thông qua DreamStudio, không tải xuống Stable Diffusion và chạy nó trên máy tính của bạn hoặc truy cập nó thông qua một số dịch vụ khác sử dụng mô hình được đào tạo tùy chỉnh. Trong trường hợp đó, Khuếch tán ổn định cũng sử dụng hệ thống tín dụng, nhưng nó không gọn gàng bằng một tín dụng, một lời nhắc. Vì bạn có rất nhiều lựa chọn nên giá sẽ thay đổi theo kích thước, số bước và số lượng hình ảnh bạn muốn tạo. Giả sử bạn muốn tạo bốn hình ảnh 512×512 pixel với kiểu máy mới nhất bằng 50 bước. Điều đó sẽ tốn 3,32 tín chỉ. Nếu bạn chỉ muốn sử dụng 30 bước, nó sẽ chỉ tốn 2 tín dụng. (Bạn luôn có thể xem chi phí trước khi nhấn Dream.)

Vì vậy, nếu bạn bỏ qua tất cả sự nhầm lẫn và tập trung vào số lượng hình ảnh mặc định bạn có thể tạo ra trên mỗi đô la, thì Stable Diffusion sẽ làm được điều đó.  Hơn hết là nó có bản dùng thử miễn phí.

Sử dụng thương mại cho cả hai phần mềm

Nếu bạn dự định sử dụng Stable Diffusion hoặc DALL·E 2 cho mục đích thương mại thì mọi thứ sẽ hơi phức tạp. Việc sử dụng thương mại hiện được cả hai cho phép, nhưng những tác động vẫn chưa được khám phá đầy đủ. Thông báo vào tháng 2 năm 2023 , Văn phòng Bản quyền Hoa Kỳ đã quyết định rằng những hình ảnh được tạo bởi Midjourney, một AI tổng hợp khác, không được đăng ký bản quyền. Điều này có nghĩa là bất kỳ ai cũng có thể tự do chụp bất kỳ hình ảnh nào bạn tạo và sử dụng nó để làm bất cứ điều gì họ muốn, mặc dù điều này chưa thực sự được thử nghiệm.

Hoàn toàn từ quan điểm cấp phép, Stable Diffusion có một chút lợi thế. Mô hình của nó có ít lan can hơn và thậm chí còn ít hơn nếu bạn tự đào tạo một bước đệm để bạn có thể tạo nhiều loại nội dung hơn. DALL·E 2 sẽ không cho phép bạn tạo một lượng lớn nội dung , bao gồm cả hình ảnh của các nhân vật của công chúng.

DALL·E 2 cũng thêm hình mờ nhiều màu vào góc dưới bên phải hình ảnh của bạn, mặc dù bạn được phép xóa nó.

DALL·E 2 so với Stable Diffusion: Bạn nên sử dụng cái nào?

Mặc dù DALL·E 2 là tên tuổi lớn nhất trong thế hệ hình ảnh AI, nhưng trước tiên bạn nên dùng thử Stable Diffusion: nó có bản dùng thử miễn phí, rẻ hơn, mạnh hơn và có nhiều quyền sử dụng dễ dàng hơn. Nếu bạn hoàn toàn đi chệch hướng, bạn cũng có thể sử dụng nó để phát triển AI thế hệ tùy chỉnh của riêng mình.

Khi DALL·E 2 có bản dùng thử miễn phí tuyệt vời, có rất nhiều người yêu thích sự đơn giản của nó. Nếu OpenAI mang điều đó trở lại, thì sẽ hợp lý đối với những ai chỉ tò mò muốn xem trình tạo hình ảnh AI có thể làm gì.

Dù bằng cách nào, quyết định không thực sự phụ thuộc vào chất lượng của đầu ra được tạo mà là trải nghiệm người dùng tổng thể. Cả hai ứng dụng đều có thể tạo ra những hình ảnh tuyệt vời, vui nhộn và hết sức kỳ quái từ lời nhắc phù hợp. Và cuối cùng, bạn có thể sẽ sử dụng ứng dụng của bên thứ ba được xây dựng trên một trong hai mô hình này, trong trường hợp đó, bạn thậm chí có thể không nhận thấy sự khác biệt.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

   
icon zalo
messenger facebook