Benchmark mới cho LLM nhúng trên thiết bị biên
Một bộ benchmark mới tập trung vào điều người dùng biên thực sự quan tâm: độ trễ token đầu tiên, điện năng mỗi câu trả lời, và chất lượng khi chạy offline.
Mô hình nhỏ đang đủ dùng
Với nhiều tác vụ (tóm tắt, phân loại, trợ lý lệnh), mô hình 2–4B tham số lượng tử hoá đã cho trải nghiệm chấp nhận được mà không cần đám mây — quan trọng cho quyền riêng tư và vùng mạng yếu.