MGIE: Το AI μοντέλο της Apple για επεξεργασία εικόνας με γραπτές περιγραφές
Οι ερευνητές της Apple κυκλοφόρησαν ένα νέο μοντέλο AI που επιτρέπει στους χρήστες να περιγράφουν σε απλή γλώσσα τι θέλουν να αλλάξουν σε μια φωτογραφία χωρίς να χρειαστεί να χρησιμοποιήσουν λογισμικό επεξεργασίας φωτογραφιών.
Το μοντέλο MGIE, στο οποίο η Apple συνεργάστηκε με το Πανεπιστήμιο της Καλιφόρνιας στη Σάντα Μπάρμπαρα, μπορεί να περικόπτει, να αλλάζει το μέγεθος, να γυρίζει και να προσθέτει φίλτρα σε εικόνες, όλα μέσω γραπτών οδηγιών.
Το MGIE, που σημαίνει MLLM-Guided Image Editing, μπορεί να εφαρμοστεί σε απλές και πιο σύνθετες εργασίες επεξεργασίας εικόνας, όπως η τροποποίηση συγκεκριμένων αντικειμένων σε μια φωτογραφία, ώστε να αποκτήσουν διαφορετικό σχήμα ή να γίνουν πιο φωτεινά. Το μοντέλο συνδυάζει δύο διαφορετικές χρήσεις των πολυτροπικών γλωσσικών μοντέλων. Πρώτον, μαθαίνει πώς να ερμηνεύει τις υποδείξεις του χρήστη. Στη συνέχεια, "φαντάζεται" πώς θα έμοιαζε η επεξεργασία.
Κατά την επεξεργασία μιας φωτογραφίας με το MGIE, οι χρήστες πρέπει απλώς να πληκτρολογήσουν τι θέλουν να αλλάξουν στην εικόνα. Η δημοσίευση χρησιμοποίησε το παράδειγμα της επεξεργασίας μιας εικόνας μιας πίτσας με πεπερόνι. Πληκτρολογώντας την προτροπή "κάντε την πιο υγιεινή", προσθέτει γαρνιτούρες με λαχανικά. Μια φωτογραφία με τίγρεις στη Σαχάρα φαίνεται σκοτεινή, αλλά μετά την εντολή στο μοντέλο να "προσθέσει περισσότερη αντίθεση για να προσομοιώσει περισσότερο φως", η εικόνα εμφανίζεται πιο φωτεινή.
"Αντί για μια σύντομη αλλά διφορούμενη καθοδήγηση, η MGIE αντλεί μια σαφή πρόθεση με οπτική επίγνωση και οδηγεί σε λογική επεξεργασία εικόνας. Διεξάγουμε εκτεταμένες μελέτες από διάφορες πτυχές της επεξεργασίας και αποδεικνύουμε ότι το MGIE μας βελτιώνει αποτελεσματικά την απόδοση, διατηρώντας παράλληλα την ανταγωνιστική αποδοτικότητα. Πιστεύουμε επίσης ότι το πλαίσιο καθοδήγησης MLLM μπορεί να συμβάλει στη μελλοντική έρευνα για την όραση και τη γλώσσα", αναφέρουν οι ερευνητές στη δημοσίευση.
Η Apple διαθέτει το MGIE μέσω του GitHub για λήψη, αλλά κυκλοφόρησε επίσης και ένα web demo στο Hugging Face Spaces, όπως αναφέρει το VentureBeat. Η εταιρεία δεν ανέφερε ποια είναι τα σχέδιά της για το μοντέλο πέρα από την έρευνα.
[via]