Νέο Open Source AI από την Xiaomi: Το Mimo-VL7B των 7B Parameters Κλονίζει τη Βιομηχανία
Πώς κατάφερε η Xiaomi αυτό το επίτευγμα; Ας βουτήξουμε βαθύτερα στην αρχιτεκτονική, τη διαδικασία εκπαίδευσης και τις εντυπωσιακές δυνατότητες αυτού του “μικρού αλλά πανίσχυρου” μοντέλου.
Στον κόσμο της Τεχνητής Νοημοσύνης, η τάση ήταν ξεκάθαρη: όσο μεγαλύτερο το μοντέλο, τόσο καλύτερη η απόδοσή του. Μοντέλα με δεκάδες ή και εκατοντάδες δισεκατομμύρια παραμέτρους απαιτούσαν τεράστια υπολογιστική ισχύ και εξειδικευμένο hardware. Όμως, η Xiaomi ήρθε να ανατρέψει αυτό το “νόμο” με το Mimo-VL7B, ένα Vision Language Model (VLM) μόλις 7 δισεκατομμυρίων παραμέτρων. Αυτό το μοντέλο όχι μόνο αποδίδει παρόμοια με μοντέλα 10 φορές μεγαλύτερα, αλλά μπορεί να τρέξει σε ένα απλό gaming rig, κλονίζοντας κυριολεκτικά τη βιομηχανία.
Huggingface link : Mimo-VL7B
Τι Είναι ένα Vision Language Model και Γιατί το Μέγεθος Μετράει (ή Μάλλον, δεν Μετράει πια);
Ένα Vision Language Model είναι ουσιαστικά ένας “εγκέφαλος” που μπορεί να “δει” εικόνες, να “διαβάσει” κείμενο (ή να παρακολουθήσει βίντεο) και μετά να “μιλήσει” γι’ αυτά, δημιουργώντας μια συνεκτική αφήγηση ή απαντώντας σε ερωτήσεις. Μπορεί να κοιτάξει μια φωτογραφία ενός αντικειμένου, να διαβάσει την περιγραφή του σε ένα κείμενο και να κατανοήσει τη σχέση μεταξύ τους.
Παραδοσιακά, για να επιτευχθεί υψηλή απόδοση σε τέτοιες εργασίες, τα μοντέλα έπρεπε να είναι τεράστια, με 30 ή 70 δισεκατομμύρια παραμέτρους ή περισσότερο. Αυτό σήμαινε ότι χρειαζόταν ακριβό hardware για να τρέξουν ή να γίνει fine-tune. Το Mimo-VL7B, με τις 7 δισεκατομμύρια παραμέτρους του, σπάει αυτό το φράγμα, καθιστώντας την προηγμένη AI πιο προσβάσιμη.
Εντός του “Εγκεφάλου”: Η Αρχιτεκτονική του Mimo-VL7B
Το Mimo-VL7B αποτελείται από τρία κύρια μέρη που συνεργάζονται στενά, ανταλλάσσοντας δεδομένα συνεχώς:
- Vision Transformer: Αυτό είναι το “μάτι” του μοντέλου. Ένας τύπος neural network layer που επεξεργάζεται εικόνες στην ίδια ανάλυση που βλέπουμε εμείς σε μια καλή οθόνη, διασφαλίζοντας ότι οι λεπτομέρειες δεν χάνονται.
- Projector: Ένας “μεταφραστής”. Αυτό το μικροσκοπικό κομμάτι κώδικα παίρνει την έξοδο από το Vision Transformer και τη μεταφράζει σε μια γλώσσα που καταλαβαίνει η πλευρά του κειμένου.
- MIMO 7B Language Backbone: Ο “γλωσσολόγος” και “λογική” του μοντέλου. Είναι ρυθμισμένο από την αρχή για να κάνει reasoning, όχι μόνο γρήγορες απαντήσεις, και μπορεί να “σκέφτεται δυνατά” γράφοντας χιλιάδες λέξεις αν χρειαστεί.
Το Ταξίδι της Εκπαίδευσης: Από το “Νηπιαγωγείο” στη Ενίσχυση
Η ανάπτυξη του Mimo-VL7B περιλαμβάνει τέσσερις φάσεις:
- Kindergarten: Τα μέρη Vision και Language ήταν παγωμένα. Το Projector εκπαιδεύτηκε σε 300 δισεκατομμύρια image-caption pairs.
- Unfreezing: Το Vision μέρος ενεργοποιήθηκε και ενσωματώθηκαν 167 δισ. γραμμές από ιστότοπους, PDF και εγχειρίδια.
- Main Training: 1,4 τρισεκατομμύρια tokens με εικόνες, κείμενα, video clips και sequence length 8.000 tokens.
- Long Reasoning: Sequence length 32.000, χρήση synthetic reasoning data με chain of thought συλλογιστική.
Επιμέλεια Δεδομένων: Το Κλειδί της Επιτυχίας
Η Xiaomi φιλτράρει αυστηρά τα δεδομένα της:
- Χρήση perceptual hashes για αποφυγή επικάλυψης.
- Captioning από ειδικά συστήματα.
- Filtering με βάση knowledge density.
- Ανθεκτικότητα μέσω OCR edge cases.
- Chinese GUI screenshots για robustness.
Mixed On-Policy Reinforcement Learning (Morl)
Η Xiaomi πρόσθεσε μια φάση fine-tuning με reinforcement learning:
- Για verifiable tasks, χρησιμοποιήθηκε αυτόματη επιβεβαίωση απαντήσεων.
- Για open-ended prompts, εκπαιδεύτηκαν reward models με ανθρώπινη αξιολόγηση.
- Η ανταμοιβή γινόταν σε πραγματικό χρόνο με web-based services.
- Τα gradients κλιμακώνονταν με βάση το μήκος της απάντησης.
Απόδοση που Προκαλεί Σοκ: Benchmarks και Δυνατότητες
Η βελτίωση είναι εμφανής:
- MMU: από 64.6% σε 66.7%
- Charxi: από 54% σε 56.5%
- Counting accuracy: από 87% σε 90%+
- Slice: 71.5%
- Olympiad Math: 59.4%
- Math500: 95.4%
Πρακτική Χρησιμότητα: Agents και GUI Skills
Το μοντέλο αποδίδει εξαιρετικά σε GUI-related tasks:
- Visual Web Bench: 80%
- Spot V2 GUI actions: 90%+
- OSWorld Grounding: 56%
- Παράγει JSON action traces για αυτοματισμούς.
Οπότε…
- Η σωστή επιλογή και χρονισμός δεδομένων κάνουν τη διαφορά.
- Το on-policy reinforcement learning λειτουργεί σταθερά και σε μικρά μοντέλα.
- Multimodal reasoning μπορεί να αναπτυχθεί σωστά με ισορροπημένα reward signals.
Το Mimo-VL7B δείχνει ότι δεν χρειάζονται τεράστια μοντέλα για να επιτευχθεί κορυφαία απόδοση. Η καινοτομία, η επιμέλεια δεδομένων και η στρατηγική εκπαίδευση είναι το μέλλον της AI — και η Xiaomi το απέδειξε έμπρακτα.











