Google ra AI tạo ảnh và video cạnh tranh OpenAI

15/5/2024 Gốc

Tại hội nghị I/O thường niên dành cho nhà phát triển, Google đã công bố hàng loạt sản phẩm trí tuệ nhân tạo (AI), từ tìm kiếm, chat đến phần cứng AI cho khách hàng doanh nghiệp.

Theo CNBC, nhiều tính năng hay công cụ Google giới thiệu mới ở giai đoạn thử nghiệm hoặc có sẵn cho lập trình viên, tuy nhiên, chúng giúp hình dung về cách tiếp cận của “ông lớn” này trong lĩnh vực AI. Google kiếm tiền từ AI bằng cách thu phí các nhà phát triển sử dụng mô hình của hãng và từ khách hàng, những người trả 19,99 USD/tháng cho chatbot Gemini Advanced để tóm tắt tập tin PDF, Google Docs.

CEO Google Sundar Pichai trên sân khấu I/O 2024. Ảnh: Google

Các đối thủ của Google như Anthropic, OpenAI gần đây đều ra mắt sản phẩm, dịch vụ mới. Chẳng hạn, OpenAI vừa công bố mô hình AI mới và phiên bản ChatGPT dành cho desktop cùng giao diện người dùng mới.

Dưới đây là những gì Google đã mang đến I/O 2024:

Gemini AI

Gemini sẽ là trợ lý hữu ích trong Gmail. Ảnh: TechCrunch

Mô hình AI Gemini 1.5 Pro sẽ sớm xử lý nhiều dữ liệu hơn. Chẳng hạn, công cụ có thể tổng hợp 1.500 trang văn bản do người dùng tải lên. Ngoài ra còn có mô hình Gemini 1.5 Flash AI mới, tiết kiệm chi phí hơn và thiết kế để phục vụ các tác vụ đơn giản như tóm tắt nhanh đoạn hội thoại, ghi chú ảnh, video và lấy dữ liệu từ các tài liệu lớn.

CEO Sundar Pichai nhấn mạnh các cải tiến trong khả năng dịch thuật của Gemini và cho biết nó sẽ có sẵn cho tất cả lập trình viên trên toàn cầu với 35 ngôn ngữ. Bên trong Gmail, Gemini 1.5 Pro sẽ phân tích PDF và video đính kèm để tóm tắt. Điều đó đồng nghĩa nếu bạn bỏ lỡ luồng email sau kỳ nghỉ, Gemini có thể tóm tắt giúp người dùng.

Theo Google, Gemini thậm chí có thể thay thế Google Assistant trên điện thoại Android và gợi ý nó còn mạnh mẽ hơn so với Siri trên iPhone.

Google Veo, Imagen 3 và Audio Overviews

Cạnh tranh với OpenAI, Google giới thiệu Veo, mô hình tạo video HD và Imagen 3, mô hình tạo ảnh tại I/O 2024 với cam kết hình ảnh chân thật, không giả tạo như các mô hình trước đó của hãng. Công cụ sẽ có sẵn với một số nhà sáng tạo được lựa chọn và cập bến Vertex AI, nền tảng máy học cho phép nhà phát triển đào tạo và triển khai ứng dụng AI.

Công cụ tạo ảnh từ văn bản Imagen 3 của Google hứa hẹn hình ảnh chân thực hơn. Ảnh: Google

Ngoài ra, hãng tìm kiếm Internet lớn nhất thế giới còn trình diễn Audio Overviews, công cụ tạo các đoạn thảo luận âm thanh dựa trên đầu vào văn bản. Chẳng hạn, nếu người dùng tải kế hoạch học tập, chatbot có thể đọc tóm tắt nó. Hoặc, nếu hỏi cách xử lý một vấn đề trong cuộc sống, nó sẽ tương tác bằng âm thanh.

Google cũng mang đến AI Sandbox, một loạt công cụ AI tạo sinh để sáng tác nhạc và âm thanh từ đầu dựa trên lời nhắc của người dùng.

Đầu năm nay, Google từng công bố công cụ tạo ảnh dựa trên Gemini nhưng bị người dùng phát hiện sai lệch về mặt lịch sử trong kết quả. Do đó, công ty phải thu hồi tính năng này.

Tính năng tìm kiếm mới

Tại Mỹ, người dùng có thể sử dụng tính năng AI Overviews trên Google Search từ đầu tuần sau. Nó tóm tắt nhanh các câu trả lời cho những câu hỏi tìm kiếm phức tạp nhất, theo Liz Reid, Giám đốc Google Search. Chẳng hạn, nếu một người dùng tìm hiểu cách tốt nhất để đánh giầy da, trang kết quả sẽ hiển thị AI Overview ở trên cùng với quy trình nhiều bước lượm lặt từ thông tin tổng hợp khắp nơi trên Internet.

Google dự định giới thiệu các tính năng lập kế hoạch ngay trong tìm kiếm. Trong thời gian tới, hãng sẽ thử nghiệm tính năng đặt câu hỏi qua video như quay phim lại sự cố mà họ gặp phải, tải lên rồi hỏi Google.

Một tính năng khác đang được thử nghiệm là AI Teammate, tích hợp trong Google Workspace. Nó sẽ tóm tắt lại dựa trên thông tin tập hợp trong Gmail, Google Docs và các ứng dụng Workspace khác.

Project Astra

Đây là tiến bộ mới nhất của Google trong trợ lý AI, do bộ phận DeepMind AI phát triển. Dù mới dừng ở nguyên mẫu, mục tiêu của Google là mang đến trợ lý AI toàn năng giống như trong phim viễn tưởng.

Trong video demo trình diễn tại I/O, trợ lý giúp người dùng nhớ được họ để kính ở đâu, đánh giá các đoạn mã và trả lời câu hỏi về một phần trong bài thuyết trình của diễn giả. Google cho rằng một chatbot thực sự hữu dụng phải nói chuyện với người dùng một cách tự nhiên, không có độ trễ hay trì hoãn. CEO DeepMind Demis Hassabis thừa nhận giảm thời gian chờ là “thách thức kỹ thuật”.

Phần cứng AI

Google công bố Trillium, bộ xử lý tensor (TPU) thế hệ 6 tại I/O. Đây là phần cứng quan trọng để vận hành AI phức tạp và dự kiến bán cho các khách hàng đám mây từ cuối năm 2024.

(Theo CNBC)

Du Lam

Nguồn VietnamNet: https://vietnamnet.vn/google-ra-ai-tao-anh-va-video-canh-tranh-openai-2280952.html