• Link to Facebook
  • Link to Youtube
DevsClub
  • Home
  • Devs.Hub
    • Devs Resource Hub
    • Color Picker
    • Devs Ai Draw
  • Devs.News
    • AI
    • Design
      • Game design
      • UX Design
    • Development
    • Ethical Hacking
    • Internet
    • Smartphones
    • PC
    • Security
    • Devs Fun Time
  • Devs.Member
  • Free Books
  • Devs.Team
  • Click to open the search input field Click to open the search input field Search
  • Menu Menu
You are here: Home1 / Devs News2 / Science3 / AI4 / Νέο Open Source AI από την Xiaomi: Το Mimo-VL7B των 7B Parameters...

/Blog

Xiaomi AI

Νέο Open Source AI από την Xiaomi: Το Mimo-VL7B των 7B Parameters Κλονίζει τη Βιομηχανία

Πώς κατάφερε η Xiaomi αυτό το επίτευγμα; Ας βουτήξουμε βαθύτερα στην αρχιτεκτονική, τη διαδικασία εκπαίδευσης και τις εντυπωσιακές δυνατότητες αυτού του “μικρού αλλά πανίσχυρου” μοντέλου.

Στον κόσμο της Τεχνητής Νοημοσύνης, η τάση ήταν ξεκάθαρη: όσο μεγαλύτερο το μοντέλο, τόσο καλύτερη η απόδοσή του. Μοντέλα με δεκάδες ή και εκατοντάδες δισεκατομμύρια παραμέτρους απαιτούσαν τεράστια υπολογιστική ισχύ και εξειδικευμένο hardware. Όμως, η Xiaomi ήρθε να ανατρέψει αυτό το “νόμο” με το Mimo-VL7B, ένα Vision Language Model (VLM) μόλις 7 δισεκατομμυρίων παραμέτρων. Αυτό το μοντέλο όχι μόνο αποδίδει παρόμοια με μοντέλα 10 φορές μεγαλύτερα, αλλά μπορεί να τρέξει σε ένα απλό gaming rig, κλονίζοντας κυριολεκτικά τη βιομηχανία.

Huggingface link :  Mimo-VL7B

Τι Είναι ένα Vision Language Model και Γιατί το Μέγεθος Μετράει (ή Μάλλον, δεν Μετράει πια);

Ένα Vision Language Model είναι ουσιαστικά ένας “εγκέφαλος” που μπορεί να “δει” εικόνες, να “διαβάσει” κείμενο (ή να παρακολουθήσει βίντεο) και μετά να “μιλήσει” γι’ αυτά, δημιουργώντας μια συνεκτική αφήγηση ή απαντώντας σε ερωτήσεις. Μπορεί να κοιτάξει μια φωτογραφία ενός αντικειμένου, να διαβάσει την περιγραφή του σε ένα κείμενο και να κατανοήσει τη σχέση μεταξύ τους.

Παραδοσιακά, για να επιτευχθεί υψηλή απόδοση σε τέτοιες εργασίες, τα μοντέλα έπρεπε να είναι τεράστια, με 30 ή 70 δισεκατομμύρια παραμέτρους ή περισσότερο. Αυτό σήμαινε ότι χρειαζόταν ακριβό hardware για να τρέξουν ή να γίνει fine-tune. Το Mimo-VL7B, με τις 7 δισεκατομμύρια παραμέτρους του, σπάει αυτό το φράγμα, καθιστώντας την προηγμένη AI πιο προσβάσιμη.

Εντός του “Εγκεφάλου”: Η Αρχιτεκτονική του Mimo-VL7B

Το Mimo-VL7B αποτελείται από τρία κύρια μέρη που συνεργάζονται στενά, ανταλλάσσοντας δεδομένα συνεχώς:

  1. Vision Transformer: Αυτό είναι το “μάτι” του μοντέλου. Ένας τύπος neural network layer που επεξεργάζεται εικόνες στην ίδια ανάλυση που βλέπουμε εμείς σε μια καλή οθόνη, διασφαλίζοντας ότι οι λεπτομέρειες δεν χάνονται.
  2. Projector: Ένας “μεταφραστής”. Αυτό το μικροσκοπικό κομμάτι κώδικα παίρνει την έξοδο από το Vision Transformer και τη μεταφράζει σε μια γλώσσα που καταλαβαίνει η πλευρά του κειμένου.
  3. MIMO 7B Language Backbone: Ο “γλωσσολόγος” και “λογική” του μοντέλου. Είναι ρυθμισμένο από την αρχή για να κάνει reasoning, όχι μόνο γρήγορες απαντήσεις, και μπορεί να “σκέφτεται δυνατά” γράφοντας χιλιάδες λέξεις αν χρειαστεί.

Το Ταξίδι της Εκπαίδευσης: Από το “Νηπιαγωγείο” στη Ενίσχυση

Η ανάπτυξη του Mimo-VL7B περιλαμβάνει τέσσερις φάσεις:

  1. Kindergarten: Τα μέρη Vision και Language ήταν παγωμένα. Το Projector εκπαιδεύτηκε σε 300 δισεκατομμύρια image-caption pairs.
  2. Unfreezing: Το Vision μέρος ενεργοποιήθηκε και ενσωματώθηκαν 167 δισ. γραμμές από ιστότοπους, PDF και εγχειρίδια.
  3. Main Training: 1,4 τρισεκατομμύρια tokens με εικόνες, κείμενα, video clips και sequence length 8.000 tokens.
  4. Long Reasoning: Sequence length 32.000, χρήση synthetic reasoning data με chain of thought συλλογιστική.

Επιμέλεια Δεδομένων: Το Κλειδί της Επιτυχίας

Η Xiaomi φιλτράρει αυστηρά τα δεδομένα της:

  • Χρήση perceptual hashes για αποφυγή επικάλυψης.
  • Captioning από ειδικά συστήματα.
  • Filtering με βάση knowledge density.
  • Ανθεκτικότητα μέσω OCR edge cases.
  • Chinese GUI screenshots για robustness.

Mixed On-Policy Reinforcement Learning (Morl)

Η Xiaomi πρόσθεσε μια φάση fine-tuning με reinforcement learning:

  • Για verifiable tasks, χρησιμοποιήθηκε αυτόματη επιβεβαίωση απαντήσεων.
  • Για open-ended prompts, εκπαιδεύτηκαν reward models με ανθρώπινη αξιολόγηση.
  • Η ανταμοιβή γινόταν σε πραγματικό χρόνο με web-based services.
  • Τα gradients κλιμακώνονταν με βάση το μήκος της απάντησης.

Απόδοση που Προκαλεί Σοκ: Benchmarks και Δυνατότητες

Η βελτίωση είναι εμφανής:

  • MMU: από 64.6% σε 66.7%
  • Charxi: από 54% σε 56.5%
  • Counting accuracy: από 87% σε 90%+
  • Slice: 71.5%
  • Olympiad Math: 59.4%
  • Math500: 95.4%

Πρακτική Χρησιμότητα: Agents και GUI Skills

Το μοντέλο αποδίδει εξαιρετικά σε GUI-related tasks:

  • Visual Web Bench: 80%
  • Spot V2 GUI actions: 90%+
  • OSWorld Grounding: 56%
  • Παράγει JSON action traces για αυτοματισμούς.

Οπότε…

  1. Η σωστή επιλογή και χρονισμός δεδομένων κάνουν τη διαφορά.
  2. Το on-policy reinforcement learning λειτουργεί σταθερά και σε μικρά μοντέλα.
  3. Multimodal reasoning μπορεί να αναπτυχθεί σωστά με ισορροπημένα reward signals.

Το Mimo-VL7B δείχνει ότι δεν χρειάζονται τεράστια μοντέλα για να επιτευχθεί κορυφαία απόδοση. Η καινοτομία, η επιμέλεια δεδομένων και η στρατηγική εκπαίδευση είναι το μέλλον της AI — και η Xiaomi το απέδειξε έμπρακτα.

Check this out…

Grok-4 is unleashed.

Grok 4 Unleashed: Elon Musk’s ‘Smartest AI’ Hits Tesla

Read more
https://www.devsclub.gr/wp-content/uploads/2025/07/Grok-4.webp 1024 1536 Domi https://www.devsclub.gr/wp-content/uploads/2020/01/DC.png Domi2025-07-14 10:35:202025-07-14 10:35:20Grok 4 Unleashed: Elon Musk’s ‘Smartest AI’ Hits Tesla
software3: AI as OS

Όταν η Τεχνητή Νοημοσύνη Γίνεται το Επόμενο Λειτουργικό Σύστημα

Read more
https://www.devsclub.gr/wp-content/uploads/2025/06/software3_AI_OS.webp 1024 1536 Domi https://www.devsclub.gr/wp-content/uploads/2020/01/DC.png Domi2025-06-21 19:30:052025-06-21 19:30:05Όταν η Τεχνητή Νοημοσύνη Γίνεται το Επόμενο Λειτουργικό Σύστημα

New AI business Service: Google Agentspace

Read more
https://www.devsclub.gr/wp-content/uploads/2025/02/2025-02-24_10h36_06.png 417 743 Domi https://www.devsclub.gr/wp-content/uploads/2020/01/DC.png Domi2025-02-24 10:45:572025-02-24 10:48:06New AI business Service: Google Agentspace
About iOS 18 Image

iOS 18: Ανακαλύπτοντας τις Νέες Δυνατότητες και Προσαρμογές

Read more
https://www.devsclub.gr/wp-content/uploads/2024/09/DALL·E-2024-09-17-10.08.47-A-vibrant-and-sleek-promotional-image-for-an-article-about-iOS-18.-The-image-features-an-iPhone-with-a-dynamic-home-screen-showcasing-customizable-app-1.webp 1024 1792 Domi https://www.devsclub.gr/wp-content/uploads/2020/01/DC.png Domi2024-09-17 11:10:272024-09-17 11:20:36iOS 18: Ανακαλύπτοντας τις Νέες Δυνατότητες και Προσαρμογές

Η Ευρωπαϊκή Ένωση Ερευνά τις Συμφωνίες Τεχνητής Νοημοσύνης

Read more
https://www.devsclub.gr/wp-content/uploads/2024/07/2024-07-11_18h54_10.png 686 1040 Domi https://www.devsclub.gr/wp-content/uploads/2020/01/DC.png Domi2024-07-11 19:26:042024-07-11 19:29:50Η Ευρωπαϊκή Ένωση Ερευνά τις Συμφωνίες Τεχνητής Νοημοσύνης

From Diagram to Code: 100% AI-Generated Process AND FREE

Read more
https://www.devsclub.gr/wp-content/uploads/2024/02/a7e92e7c-f3e2-4f68-8da5-92d7335714cf.jpg 1024 1024 Domi https://www.devsclub.gr/wp-content/uploads/2020/01/DC.png Domi2024-02-15 00:58:362024-02-15 01:00:33From Diagram to Code: 100% AI-Generated Process AND FREE

AutoGPT: The Revolutionary Tool Powered by GPT-4

Read more
https://www.devsclub.gr/wp-content/uploads/2023/04/AutoGPT-1.png 1108 1990 Domi https://www.devsclub.gr/wp-content/uploads/2020/01/DC.png Domi2023-04-29 03:48:532023-04-29 17:31:16AutoGPT: The Revolutionary Tool Powered by GPT-4

New Job Arrived: Discover the Versatile Role of Prompt Engineering Across Industries Using AI Solutions

Read more
https://www.devsclub.gr/wp-content/uploads/2023/04/Leonardo_Diffusion_Artificial_Intelligence_new_Jobs_2.jpg 1024 1024 Domi https://www.devsclub.gr/wp-content/uploads/2020/01/DC.png Domi2023-04-16 21:56:092023-04-16 22:45:35New Job Arrived: Discover the Versatile Role of Prompt Engineering Across Industries Using AI Solutions
Gupta's AI Model

Engineering student’s AI model turns American Sign Language into English in real-time

Read more
https://www.devsclub.gr/wp-content/uploads/2023/03/2023-03-22_16h07_21.png 670 1196 Domi https://www.devsclub.gr/wp-content/uploads/2020/01/DC.png Domi2023-03-22 16:24:132023-03-22 16:42:38Engineering student’s AI model turns American Sign Language into English in real-time
Previous Previous Previous Next Next Next
Share this entry
  • Share on Facebook
  • Share on X
  • Share on WhatsApp
  • Share on Pinterest
  • Share on LinkedIn
  • Share on Tumblr
  • Share on Vk
  • Share on Reddit
  • Share by Mail

Devs Latest news

  • Grok-4 is unleashed.
    Grok 4 Unleashed: Elon Musk’s ‘Smartest AI’ Hits Tesla
  • software3: AI as OS
    Όταν η Τεχνητή Νοημοσύνη Γίνεται το Επόμενο Λειτουργικό Σύστημα
  • New AI business Service: Google Agentspace
  • About iOS 18 Image
    iOS 18: Ανακαλύπτοντας τις Νέες Δυνατότητες και Προσαρμογές
  • Η Ευρωπαϊκή Ένωση Ερευνά τις Συμφωνίες Τεχνητής Νοημοσύνης

Categories

Archives

  • July 2025
  • June 2025
  • May 2025
  • April 2025
  • March 2025
  • February 2025
  • January 2025
  • September 2024
  • July 2024
  • February 2024
  • January 2024
  • June 2023
  • May 2023
  • April 2023
  • March 2023
  • October 2021
  • September 2021
  • August 2021
  • April 2021
  • March 2021
  • February 2021
  • January 2021
  • December 2020
  • November 2020
  • October 2020
  • September 2020
  • August 2020
  • June 2020
  • May 2020
  • April 2020
  • March 2020
  • February 2020
  • January 2020
DevsTeam | © Copyright - DevsClub
  • Link to Facebook
  • Link to Youtube
Scroll to top Scroll to top Scroll to top

This site uses cookies. By continuing to browse the site, you are agreeing to our use of cookies.

Accept settingsHide notification onlySettings

Cookie and Privacy Settings



How we use cookies

We may request cookies to be set on your device. We use cookies to let us know when you visit our websites, how you interact with us, to enrich your user experience, and to customize your relationship with our website.

Click on the different category headings to find out more. You can also change some of your preferences. Note that blocking some types of cookies may impact your experience on our websites and the services we are able to offer.

Essential Website Cookies

These cookies are strictly necessary to provide you with services available through our website and to use some of its features.

Because these cookies are strictly necessary to deliver the website, refusing them will have impact how our site functions. You always can block or delete cookies by changing your browser settings and force blocking all cookies on this website. But this will always prompt you to accept/refuse cookies when revisiting our site.

We fully respect if you want to refuse cookies but to avoid asking you again and again kindly allow us to store a cookie for that. You are free to opt out any time or opt in for other cookies to get a better experience. If you refuse cookies we will remove all set cookies in our domain.

We provide you with a list of stored cookies on your computer in our domain so you can check what we stored. Due to security reasons we are not able to show or modify cookies from other domains. You can check these in your browser security settings.

Google Analytics Cookies

These cookies collect information that is used either in aggregate form to help us understand how our website is being used or how effective our marketing campaigns are, or to help us customize our website and application for you in order to enhance your experience.

If you do not want that we track your visit to our site you can disable tracking in your browser here:

Other external services

We also use different external services like Google Webfonts, Google Maps, and external Video providers. Since these providers may collect personal data like your IP address we allow you to block them here. Please be aware that this might heavily reduce the functionality and appearance of our site. Changes will take effect once you reload the page.

Google Webfont Settings:

Google Map Settings:

Google reCaptcha Settings:

Vimeo and Youtube video embeds:

Other cookies

The following cookies are also needed - You can choose if you want to allow them:

Privacy Policy

You can read about our cookies and privacy settings in detail on our Privacy Policy Page.

Privacy Policy
Accept settingsHide notification only