Σύμφωνα με μια πρόσφατη μελέτη, τα μεγάλα μοντέλα γλώσσας AI, όπως το Chinchilla 70B της DeepMind, μπορούν να επιτύχουν απώλεια συμπίεσης καλύτερη από τα παραδοσιακά αλγόριθμα συμπίεσης PNG και FLAC1. Η μελέτη ανακάλυψε ότι το Chinchilla 70B μπορεί να συμπιέσει εικόνες από τη βάση δεδομένων εικόνων ImageNet στο 43,4% του αρχικού τους μεγέθους, ενώ το PNG συμπίεσε τα ίδια δεδομένα στο 58,5% 1. Όσον αφορά τον ήχο, το Chinchilla συμπίεσε δείγματα από το σύνολο δεδομένων ήχου LibriSpeech στο 16,4% του αρχικού τους μεγέθους, ξεπερνώντας τη συμπίεση FLAC που ήταν στο 30,3% 1.
Η αποτελεσματική συμπίεση βασίζεται στην ανακάλυψη προτύπων για τη μείωση του μεγέθους των δεδομένων χωρίς απώλεια πληροφορίας. Όταν ένας αλγόριθμος ή μοντέλο μπορεί να μαντέψει με ακρίβεια το επόμενο κομμάτι δεδομένων σε μια ακολουθία, αυτό δείχνει ότι είναι καλό στο να αναγνωρίζει αυτά τα πρότυπα1. Αυτό συνδέει την ιδέα του να κάνουμε καλές εκτιμήσεις – κάτι που τα μεγάλα μοντέλα γλώσσας, όπως το GPT-4, κάνουν πολύ καλά – με την επίτευξη καλής συμπίεσης1.
Ωστόσο, η μελέτη δεν αναφέρει αν αυτά τα μοντέλα γλώσσας AI είναι ικανά να συμπιέσουν αποτελεσματικά κείμενα ή άλλα δεδομένα που δεν περιλαμβάνονται στο σύνολο εκπαίδευσης του μοντέλου3. Επιπλέον, δεν είναι σαφές αν η συμπίεση που πραγματοποιείται από τα μοντέλα γλώσσας AI είναι σταθερή και παράγει πάντα το ίδιο αποτέλεσμα3.