[Video] Hiệu suất vượt trội: Mô hình ngôn ngữ lớn nhanh hơn tới 4 lần khi sử dụng card đồ họa RTX với thư viện mã nguồn mở TensorRT-LLM dành cho hệ điều hành Windows

Tháng Sáu 13 07:30 2024

Thư viện mã nguồn mở TensorRT được tăng tốc nhờ công cụ Stable Diffusion (1) và công nghệ xử lý đồ họa RTX Video Super Resolution.
(1) Stable Diffusion: là một công cụ có sự trợ giúp của trí tuệ nhân tạo, giúp tạo ra những hình ảnh dựa trên các đoạn mô tả dạng văn bản. Đặc biệt, đây là mô hình AI dễ sử dụng hơn so với những mô hình trước đây.

Trí tuệ nhân tạo tạo sinh (Generative AI) (2) là một trong những xu hướng quan trọng nhất trong lịch sử máy tính cá nhân, mang lại những tiến bộ trong lĩnh vực chơi game, sáng tạo nội dung/ video, tăng hiệu suất và phát triển hơn thế nữa.
(2) Generative AI: là AI tạo sinh. Là một nhánh của trí tuệ nhân tạo tập trung vào khả năng tạo ra nội dung mới và đa dạng dựa trên dữ liệu đầu vào ban đầu.

Bộ xử lý đồ họa GPU GeForce RTX và card đồ họa NVIDIA RTX, được trang bị bộ xử lý công nghệ AI chuyên dụng Tensor Cores, mang sức mạnh của AI tạo sinh đến hơn 100 triệu máy tính cá nhân (PC) và máy trạm chạy hệ điều hành Windows.

Ngày nay, AI tạo sinh trên PC nhanh hơn gấp 4 lần nhờ có thư viện mã nguồn mở TensorRT-LLM dành cho hệ điều hành Windows, một thư viện mã nguồn mở giúp tăng tốc hiệu suất suy luận cho các mô hình ngôn ngữ lớn AI mới nhất, như Llama 2 (3) và Code Llama (4). Điều này diễn ra sau thông báo của TensorRT-LLM dành cho các trung tâm dữ liệu vào tháng 9/2023.
(3) LLaMa-2: là phiên bản tiếp theo của LLaMa – một mô hình ngôn ngữ lớn được tạo ra bởi Facebook AI Research.
(4) Code Llama: là một mô hình ngôn ngữ lớn được xây dựng trên nền tảng Llama 2.

Tập đoàn NVIDIA đã phát hành các công cụ giúp các doanh nghiệp tăng tốc mô hình ngôn ngữ lớn (LLM – Large Language Models) của họ, bao gồm các tập lệnh tối ưu hóa các mô hình tùy chỉnh với thư viện mã nguồn mở TensorRT-LLM, các mô hình nguồn mở được tối ưu hóa TensorRT và một dự án tham khảo dành cho các nhà đầu tư cả tốc độ và chất lượng của phản hồi LLM.

Tính năng tăng tốc của thư viện mã nguồn TensorRT hiện có sẵn cho công cụ Stable Diffusion WebUI thông qua ứng dụng Automatic1111. Nó tăng tốc AI tạo sinh lên gấp 2 lần so với cách nhanh nhất trước đó.

Ngoài ra, công nghệ xử lý đồ họa RTX Video Super Resolution (VSR) phiên bản 1.5 có sẵn trong driver Game Ready Driver (5) và bộ công cụ NVIDIA Studio Driver được phát hành vào đầu tháng 11/2023.
(5) Driver: là một trình điều khiển, được thiết lập để kết nối phần cứng và phần mềm của máy tính. Game Ready Driver: là một sản phẩm của tập đoàn NVIDIA. Đây là driver được thiết kế nhằm hỗ trợ khách hàng nâng cao trải nghiệm chơi game của mình với chất lượng đồ họa chân thực hơn. 

Tăng tốc hiệu suất phân giải mô hình ngôn ngữ lớn với thư viện mã nguồn TensorRT
Mô hình ngôn ngữ lớn (LLM) đang thúc đẩy năng suất thông qua các ứng dụng như trò chuyện, tóm tắt tài liệu và nội dung web, soạn thảo email và blog, đồng thời LLM là cốt lõi của các hệ thống trí tuệ nhân tạo mới và phần mềm có thể tự động phân tích dữ liệu và tạo ra nhiều nội dung.

Thư viện mã nguồn mở TensorRT-LLM, một thư viện để tăng tốc suy luận LLM, mang lại cho doanh nghiệp và khách hàng khả năng hoạt động nhanh hơn gấp 4 lần trên máy tính hệ điều hành Windows có hỗ trợ công nghệ RTX.

Ở mức độ số lượng dữ liệu lớn, khả năng tăng tốc cải thiện đáng kể trải nghiệm mô hình ngôn ngữ lớn phức tạp hơn – như trợ lý viết và mã hóa tạo ra nhiều kết quả tự động cùng một lúc. Kết quả là hiệu suất được tăng tốc và chất lượng được cải thiện, cho phép khách hàng lựa chọn kết quả tốt nhất trong nhóm.

Khả năng tăng tốc thư viện mã nguồn mở TensorRT-LLM cũng có lợi khi tích hợp các mô hình ngôn ngữ lớn với công nghệ khác, chẳng hạn như trong thế hệ tăng cường truy xuất (RAG – retrieval-augmented generation), trong đó LLM được kết nối với thư viện vectơ hoặc cơ sở dữ liệu vectơ. RAG cho phép LLM đưa ra phản hồi dựa trên tập dữ liệu cụ thể, như email hoặc bài viết của khách hàng trên website, để cung cấp câu trả lời có mục tiêu.

Ví dụ, khi đặt câu hỏi trong công cụ Chat with LLaMa 2: “Công nghệ NVIDIA ACE tạo ra phản ứng cảm xúc như thế nào?”, nó đã đưa ra một câu trả lời chung chung.

Phản hồi tốt hơn, nhanh hơn.

Ngược lại, việc sử dụng kỹ thuật tăng cường truy xuất RAG (6) với các bài viết của GeForce News gần đây được tải vào thư viện vectơ và kết nối với Llama 2 không chỉ giúp mô hình này đưa ra câu trả lời đúng — sử dụng NeMo SteerLM — mà còn nhanh hơn rất nhiều nhờ tính năng tăng tốc thư viện mã nguồn mở TensorRT-LLM. Sự kết hợp giữa tốc độ và kỹ năng thành thạo mang đến cho khách hàng những giải pháp thông minh hơn.
(6) RAG (Retrieval-augmented generation): là một kỹ thuật nhằm nâng cao độ chính xác và độ tin cậy của các mô hình AI tổng quát, từ khả năng tạo văn bản tự động và khả năng truy vấn thông tin. Nó kết hợp hai thành phần chính: một mô hình sinh văn bản và một hệ thống truy xuất thông tin.

Sắp tới đây, thư viện mã nguồn mở TensorRT-LLM có thể được tải từ trang web của NVIDIA. Các mô hình nguồn mở được tối ưu hóa cho TensorRT và bản demo RAG với GeForce News dưới dạng dự án mẫu có sẵn tại ngc.nvidia.comGitHub.com/NVIDIA.

Tự động tăng tốc
Các mô hình khuếch tán (Diffusion models) (7), như mô hình Stable Diffusion (8), được sử dụng để mô phỏng và tạo ra các tác phẩm nghệ thuật mới lạ và đẹp mắt. Tạo hình ảnh là một quá trình lặp đi lặp lại đến hàng trăm chu kỳ để đạt được kết quả hoàn hảo. Khi công việc này được thực hiện trên một máy tính với cấu hình thấp, việc lặp lại này có thể mất hàng giờ.
(7) Diffusion Models: là một loại mô hình AI tạo sinh trong học máy, có khả năng tạo ra dữ liệu mới, chẳng hạn như hình ảnh hoặc âm thanh, bằng cách bắt chước dữ liệu mà chúng đã được đào tạo.
(8) Stable Diffusion: là một mô hình trí tuệ nhân tạo tạo sinh, có khả năng tạo ra hình ảnh tả thực độc đáo từ lời nhắc bằng văn bản và hình ảnh.

Thư viện mã nguồn mở TensorRT được thiết kế để tăng tốc các mô hình AI thông qua phản ứng tổng hợp lớp, hiệu chuẩn chính xác, tự động điều chỉnh nhân và các khả năng khác giúp tăng đáng kể hiệu quả và tốc độ suy luận. Điều này khiến chúng không thể thiếu đối với các ứng dụng thời gian thực và các tác vụ phức tạp.

Hiện nay, thư viện mã nguồn mở TensorRT giúp tăng gấp đôi tốc độ của mô hình Stable Diffusion.

Tương thích với bản phân phối phổ biến nhất, công cụ WebUI từ ứng dụng Automatic1111, mô hình Stable Diffusion với khả năng tăng tốc của thư viện mã nguồn mở TensorRT, giúp khách hàng thực hiện công việc lặp đi lặp lại để tạo ra hình ảnh trở nên nhanh hơn và tốn ít thời gian thao tác trên máy tính hơn, có được hình ảnh hoàn thiện sớm hơn. Với card đồ họa GeForce RTX 4090, máy tính sẽ chạy nhanh hơn 7 lần so với việc thực hiện trên máy tính Mac được trang bị chip Apple M2 Ultra. Tiện ích mở rộng đã có sẵn và có thể tải xuống.

Bản demo thư viện mã nguồn mở TensorRT của mô hình Stable Diffusion giúp các nhà đầu tư tham khảo cách chuẩn bị các mô hình Stable Diffusion và tăng tốc chúng bằng TensorRT. Đây là điểm khởi đầu cho các nhà đầu tư quan tâm đến việc tăng tốc các mô hình khuếch tán và mang lại khả năng suy luận nhanh cho các ứng dụng.

Hình ảnh video chân thật
Công nghệ trí tuệ nhân tạo giúp cải thiện trải nghiệm máy tính cá nhân hàng ngày cho tất cả khách hàng. Truyền phát video từ mọi nguồn, như YouTube, Twitch, Prime Video, Disney+ và nhiều nguồn khác, là một trong những hoạt động phổ biến nhất trên PC. Nhờ AI và card đồ họa RTX, nó nhận được một bản cập nhật khác về chất lượng hình ảnh.

Tính năng siêu phân giải video RTX VSR (Video Super Resolution) (9) là bước đột phá trong xử lý pixel AI giúp cải thiện chất lượng nội dung video phát trực tuyến, bằng cách giảm hoặc loại bỏ hiện tượng nhiễu do nén file video. Tính năng này cũng làm sắc nét hình ảnh.
(9) RTX VSR: Tính năng siêu phân giải video RTX VSR của tập đoàn Nvidia là một tính năng của bộ xử lý đồ họa GPU Nvidia dòng RTX 30 và RTX 40 cho phép nâng cấp bất kỳ nội dung video nào được phát trong trình duyệt Chrome hoặc Edge.

 

Hiện đã có tính năng RTX VSR phiên bản 1.5 cải thiện hơn nữa chất lượng hình ảnh với các mẫu cập nhật, loại bỏ hình ảnh nén chất lượng thấp được phát ở độ phân giải gốc và bổ sung hỗ trợ cho card đồ họa GPU RTX dựa trên kiến ​​trúc NVIDIA Turing – GPU RTX và GeForce RTX 20 Series professional.

Việc đào tạo cho mô hình AI VSR đã giúp mô hình này học cách nhận biết sự khác biệt giữa các chi tiết hình ảnh gốc và nén. Do đó, hình ảnh AI tăng cường sẽ lưu giữ các chi tiết chính xác hơn trong quá trình nâng cấp. Các chi tiết mịn được hiển thị rõ ràng hơn và hình ảnh tổng thể trông sắc nét và sinh động hơn.

Tính năng RTX VSR phiên bản 1.5 cải thiện độ phân giải cho hình ảnh chi tiết và sắc nét

Điểm mới của tính năng RTX VSR phiên bản 1.5 là khả năng nâng cấp chất lượng hình ảnh video khi được phát ở độ phân giải nguyên bản. Video phát hành chỉ tăng chất lượng hình ảnh khi nó được nâng cấp. Ví dụ: video với độ phân giải 1080p được truyền trực tiếp tới màn hình có độ phân giải 1080p sẽ trông rõ và sắc nét hơn hơn.

RTX VSR hiện loại bỏ hiện tượng giả video được phát ở độ phân giải gốc.

Tính năng RTX VSR 1.5 hiện đã có sẵn cho tất cả khách hàng dùng card đồ họa RTX với phiên bản driver Game Ready Driver mới nhất. Nó có sẵn trong NVIDIA Studio Driver.

RTX VSR là một trong những phần mềm, công cụ, thư viện và SDKs của tập đoànNVIDIA — như những phần mềm được đề cập ở trên, cùng với DLSS, Omniverse, AI Workbench và các phần mềm khác — đã giúp mang hơn 400 ứng dụng và trò chơi hỗ trợ trí tuệ nhân tạo đến với khách hàng.

Thời đại công nghệ AI đến gần với chúng ta. Và card đồ họa RTX đang tăng tốc ở mọi bước trong quá trình phát triển của nó.

Để xem các tin bài khác về “Mô hình ngôn ngữ lớn”, vui lòng nhấn vào đây.

 

Nguồn: NVIDIA

Lưu ý: 

Để xem và khai thác hiệu quả nội dung của video clip nói trên (từ YouTube/ một dịch vụ của Google), Quý vị có thể thực hiện các bước sau:
1. Nếu tốc độ internet nhanh, có thể mở chế độ xem toàn màn hình bằng cách nhấn vào khung [ ] tại góc phải (phía dưới góc phải của video)
2. Chọn chế độ hình ảnh tốt nhất của đoạn video, hãy click vào hình bánh xe răng cưa và chọn chất lượng cao hơn (hoặc HD) theo ý muốn
3. Để hiển thị nội dung phụ đề, nhấn vào nút biểu tượng phụ đề [cc]. Một số video không có chức năng này sẽ không có biểu tượng phụ đề.
4. Quý vị có thể nghe hiểu tiếng Anh và có nhu cầu chia sẻ thông tin đến cộng đồng, hãy hỗ trợ techMAG biên dịch nội dung video và gửi cho chúng tôi để có cơ hội đăng thông tin lên technologyMag.net

Bình luận hay chia sẻ thông tin