Nvidia ra mắt mô hình AI mới, đánh bại GPT-4o của OpenAI trong các bài kiểm tra chuẩn

Updated: 18/10/2024 at 11:26

Nvidia đã gây bất ngờ khi ra mắt một mô hình trí tuệ nhân tạo (AI) mới vào ngày 15 tháng 10, được cho là vượt trội hơn các hệ thống AI hiện đại như GPT-4o và Claude-3.

Theo bài đăng trên X từ tài khoản Nvidia AI Developer, mô hình mới có tên Llama-3.1-Nemotron-70B-Instruct, được giới thiệu là “mô hình hàng đầu” trên Chatbot Arena của lmarena.AI.

Llama-3.1-Nemotron-70B-Instruct thực chất là phiên bản cải tiến của mô hình mã nguồn mở Llama-3.1-70B-Instruct từ Meta, với phần “Nemotron” trong tên phản ánh những đóng góp của Nvidia vào mô hình này. Tập hợp các mô hình AI Llama, như được gọi bởi Meta, đã tạo ra nền tảng nguồn mở cho các nhà phát triển.

Trong trường hợp của Nemotron, Nvidia đã thực hiện một thách thức lớn, phát triển một hệ thống được thiết kế để “hữu ích” hơn các mô hình nổi bật như ChatGPT của OpenAI và Claude-3 của Anthropic. Nvidia đã sử dụng các tập dữ liệu được tuyển chọn kỹ lưỡng, các phương pháp tinh chỉnh tiên tiến và phần cứng AI hiện đại để biến đổi mô hình gốc của Meta thành một sản phẩm có khả năng “hữu ích” nhất hiện nay.

Khi đánh giá mô hình AI, không có phương pháp khách quan nào để xác định cái nào là “tốt nhất”. Khác với các phép đo vật lý rõ ràng, hiệu suất của mô hình AI thường được đánh giá qua thử nghiệm so sánh. Các nhà phát triển và nhà nghiên cứu phải đánh giá hiệu quả của mô hình thông qua các thử thách tương tự nhau.

Đánh giá chuẩn AI thường bao gồm việc đưa ra các truy vấn hoặc nhiệm vụ tương tự cho các mô hình khác nhau và so sánh tính hữu ích của kết quả. Vì sự chủ quan trong việc xác định điều gì được coi là hữu ích, người giám sát thường được sử dụng để đánh giá hiệu suất qua các đánh giá mù*.

Trong trường hợp của Nemotron, Nvidia tuyên bố rằng mô hình mới này có thể vượt qua các đối thủ như GPT-4o và Claude-3. Mặc dù Llama-3.1-Nemotron-70B-Instruct chưa được liệt kê trong bảng xếp hạng cụ thể nào, nếu tuyên bố rằng nó đạt 85 điểm trong bài kiểm tra “Khó” trên Chatbot Arena là chính xác, thì nó sẽ đứng đầu trong lĩnh vực này.

Điều đáng chú ý là Llama-3.1-70B là một mô hình AI nguồn mở tầm trung từ Meta, trong khi phiên bản lớn hơn, Llama-3.1-405B, có số lượng tham số gấp nhiều lần. Đồng thời, GPT-4o được phát triển với hơn 1 nghìn tỷ tham số.

*Đánh giá mù là một phương pháp đánh giá trong đó người tham gia không biết thông tin cụ thể về các đối tượng hoặc mẫu mà họ đang đánh giá. Điều này giúp giảm thiểu thiên kiến và đảm bảo rằng các đánh giá được thực hiện một cách khách quan hơn.

Tham gia Telegram: https://t.me/tapchibitcoinvn

Theo dõi Twitter (X): https://twitter.com/tapchibtc_io

Theo dõi Tiktok: https://www.tiktok.com/@tapchibitcoin

Itadori

Theo Cointelegraph

Được đề cập trong bài viết
Mới cập nhật

Theo Griff Green — nhà phát triển từng tham gia xây dựng nền tảng — các khoản tiền “trường hợp đặc biệt” vốn được thiết lập để hoàn tiền cho những nạn nhân đặc thù của vụ hack The DAO đang được kích hoạt trở lại, lần này với mục... ...

LayerZero (ZRO) đang chịu sức ép rõ rệt từ làn sóng bán tháo lan rộng trên thị trường tiền điện tử, khi giá giảm khoảng 7% tại thời điểm ghi nhận vào ngày thứ Sáu. Dù vậy, giao thức nhắn tin xuyên chuỗi này vẫn cho thấy nền tảng nhu... ...

Stellar (XLM) tiếp tục chìm trong sắc đỏ khi giá trượt xuống dưới ngưỡng 0,20 USD vào phiên thứ Sáu — mức thấp nhất kể từ giữa tháng 10. Áp lực bán gia tăng trong bối cảnh tâm lý thị trường ngày càng bi quan, thể hiện rõ qua sự... ...

Flying Tulip, nền tảng DeFi mới do “bố già DeFi” Andre Cronje và đội ngũ của ông phát triển, đã huy động thêm vốn thông qua kết hợp các đợt bán token riêng tư và công khai. Trong vòng Series A bán token riêng tư, dự án huy động được... ...

Các meme coin, với Dogecoin (DOGE), Shiba Inu (SHIB) và Pepe (PEPE) giữ vai trò dẫn dắt, tiếp tục lao dốc trong tuần này, nối dài chuỗi suy yếu đã hình thành trước đó. Phân tích kỹ thuật cho thấy bức tranh kém tích cực khi cả DOGE, SHIB và... ...

Hệ thống quản trị của blockchain Optimism vừa phê duyệt một đề xuất quan trọng, theo đó 50% tổng doanh thu từ Superchain sẽ được sử dụng để mua lại token OP của mạng lưới trong vòng 12 tháng tới, bắt đầu từ tháng 2. Đề xuất này được Optimism... ...

Bitcoin (BTC), Ethereum (ETH) và Ripple (XRP) tiếp tục chìm trong nhịp điều chỉnh vào phiên thứ Sáu, với mức sụt giảm trong tuần lần lượt xấp xỉ 6%, 3% và 5%. BTC đang trượt dần về vùng đáy của tháng 11 quanh ngưỡng 80.000 USD, trong khi ETH đánh... ...

Trong khi phần lớn sự chú ý của ngành trong năm qua tập trung vào stablecoin, trái phiếu kho bạc được token hóa và các cổng tiếp cận dành cho tổ chức, đội ngũ đứng sau Velodrome và Aerodrome cho rằng cuộc cạnh tranh quyền lực thực sự của crypto... ...

Giá token ở mức thấp tiếp tục tạo áp lực lên các mạng hạ tầng vật lý phi tập trung (DePIN), nhưng doanh thu toàn ngành đang cho thấy dấu hiệu bền bỉ hơn, theo một báo cáo từ Messari. Phần lớn token DePIN đi ngang hoặc suy giảm trong... ...

Worldcoin (WLD), Chiliz (CHZ) và Hyperliquid (HYPE) đồng loạt lao dốc trong 24 giờ qua, khi Bitcoin (BTC) bất ngờ đánh mất mốc hỗ trợ quan trọng 82.000 USD trong phiên thứ Sáu. Cú trượt mạnh của BTC đã kích hoạt làn sóng “quét” vị thế trị giá khoảng 1,75... ...

Xem thêm bài viết

Chọn chế độ hiển thị:
Bình thường Bảo vệ mắt Dark Mode