Một mô hình ngôn ngữ lớn từ châu Âu cho cả thế giới
ÁO – Tại Hội nghị Hệ thống xử lý thông tin thần kinh (NeurIPS – Conference on Neural Information Processing Systems), Giáo sư Tiến sĩ Sepp Hochreiter cho biết mô hình 7B mới đã được đưa vào hoạt động. Kiến trúc mạng bộ nhớ dài – ngắn hạn (xLSTM – long short – term memory) (1) có sẵn trên mạng xã hội GitHub (2) tại công ty NXAI và một mô hình được đào tạo trước có sẵn để tinh chỉnh trên nền tảng Huggingface (3).
(1) Bộ nhớ dài – ngắn hạn: là một mạng thần kinh hồi quy (RNN) nhân tạo được sử dụng trong lĩnh vực học sâu.
(2) GitHub: là một mạng xã hội đặc biệt dành cho lập trình viên, là một hệ thống quản lý dự án, lưu trữ source code, theo dõi và cộng tác trong các dự án phần mềm.
(3) Hugging Face: là một nền tảng và cộng đồng trực tuyến hỗ trợ việc xây dựng, triển khai và đào tạo các mô hình học máy (AI) một cách dễ dàng.
Giáo sư Tiến sĩ Sepp Hochreiter
Giáo sư Sepp nói rằng: “Những dự đoán về khả năng mở rộng của chúng tôi từ công trình của mình đã trở thành sự thật. Với mô hình xLSTM 7B, chúng tôi trình bày mô hình ngôn ngữ lớn (LLM – large language model) tốt nhất dựa trên mạng nơ-ron hồi quy (RNN – recurrent neural networks). Đây là mô hình tiết kiệm năng lượng nhất trong thế giới các mô hình ngôn ngữ lớn với khả năng suy luận nhanh”. Giáo sư Sepp giảng dạy tại Đại học JKU Linz và là Nhà khoa học trưởng tại Công ty NXAI.
Giáo sư Sepp nói tiếp: “Chúng tôi rất vui khi nhiều người có thể tích hợp những lợi thế của kiến trúc của chúng tôi vào sản phẩm của họ và phát triển các ứng dụng của riêng họ dựa trên mô hình xLSTM 7B. Đặc biệt, các ứng dụng công nghệ trí tuệ nhân tạo (AI) trong lĩnh vực biên và nhúng, được hưởng lợi rất nhiều từ hiệu quả cao và tốc độ của mô hình của chúng tôi. Tất cả các nhà nghiên cứu trên toàn thế giới đều có thể sử dụng mô hình xLSTM 7B cho công việc của họ. Đây là mô hình từ châu Âu dành cho thế giới”.
Kiến trúc xLSTM không chỉ là một mô hình ngôn ngữ lớn (LLM)
Kể từ khi kiến trúc xLSTM được công bố lần đầu tiên vào đầu năm 2024, nhiều nhà phát triển đã trình bày các giải pháp dựa trên phương pháp tiếp cận này. Kiến trúc xLSTM đặc biệt phổ biến trong lĩnh vực công nghiệp. Giáo sư Sepp nói rằng: “Tôi thấy kiến trúc xLSTM có tiềm năng lớn trong lĩnh vực robot vì nó nhanh hơn đáng kể và hiệu quả hơn về bộ nhớ trong suy luận”.
Trước đây, một bài báo nghiên cứu đã đề xuất một Mô hình hành động hồi quy lớn (LRAM – Large Recurrent Action Model) dành cho robot dựa trên kiến trúc xLSTM. Các chuyên gia trong ngành cũng thông báo rằng kiến trúc này cũng đang được sử dụng trong các ứng dụng di động nhờ bộ nhớ lưu được lâu dài hơn và có thể thay đổi. Điều tương tự cũng áp dụng cho công nghệ y tế và các ứng dụng khoa học đời sống. Giáo sư Sepp thông báo: “Ngoài ra, kiến trúc xLSTM đã được sử dụng để dự báo chuỗi thời gian và cho thấy hiệu suất vượt trội trong các dự báo dài hạn so với các phương pháp khác”. Theo quan điểm của các nhà phát triển, kiến trúc xLSTM không chỉ là một mô hình LLM.
Bối cảnh: Trái ngược với công nghệ Transformer, các phép tính xLSTM chỉ tăng tuyến tính theo độ dài của văn bản và yêu cầu ít năng lượng tính toán hơn trong quá trình vận hành. Đây là một lợi thế lớn, vì các tác vụ phức tạp yêu cầu nhiều văn bản hơn cho cả mô tả tác vụ và giải pháp.
Để xem các tin bài khác về “Ngôn ngữ lớn”, hãy nhấn vào đây.
Nguồn: Hannover Messe
Tin bài liên quan:
- [Video] Cùng nhau phát triển: Mô hình ngôn ngữ mở Gemma của công ty Google được tối ưu hóa để chạy trên bộ xử lý đồ họa GPU NVIDIA
- Google ra mắt Gemma, mô hình xử lý ngôn ngữ với mã nguồn mở đánh bại Mistral 7B và Llama-2
- [Video] Hiệu suất vượt trội: Mô hình ngôn ngữ lớn nhanh hơn tới 4 lần khi sử dụng card đồ họa RTX với thư viện mã nguồn mở TensorRT-LLM dành cho hệ điều hành Windows
- Tập đoàn NVIDIA mang AI tạo sinh đến hàng triệu người, với bộ xử lý Tensor Core, mô hình ngôn ngữ lớn, công cụ dành cho máy tính để bàn RTX và máy trạm
- Nga sắp tung xe tải tự lái bất chấp mọi địa hình
- Tự tin định hình số hóa trong các công ty sản xuất
- Tình hình công nghiệp đóng tàu của châu Âu trong những năm qua
- Máy mài tròn ngoài của Đài Loan định hình ngành công nghiệp thế giới
- [Video] Tập đoàn Zimmer giới thiệu robot linh hoạt phù hợp với nhiều mô hình sản xuất
- [Hannover Messe 2019] Omron giới thiệu loạt mô hình cobot mới