Hunyuan3D 2.0: Η AI που επιταχύνει απίστευτα τον τρισδιάστατο σχεδιασμό

Η Tencent παρουσίασε το Hunyuan3D 2.0, ένα σύστημα Τεχνητής Νοημοσύνης που μετατρέπει μεμονωμένες εικόνες ή περιγραφές κειμένου σε λεπτομερή τρισδιάστατα μοντέλα μέσα σε δευτερόλεπτα. Το σύστημα μετατρέπει μια τυπικά χρονοβόρα διαδικασία - που μπορεί να πάρει μέρες ή εβδομάδες σε εξειδικευμένους καλλιτέχνες - σε μια γρήγορη, αυτοματοποιημένη εργασία.

Ακολουθώντας τον προκάτοχό του, αυτή η νέα έκδοση του μοντέλου είναι διαθέσιμη ως open source project τόσο στο Hugging Face όσο και στο GitHub, καθιστώντας την τεχνολογία άμεσα προσβάσιμη σε προγραμματιστές και ερευνητές σε όλο τον κόσμο.

«Η δημιουργία υψηλής ποιότητας 3D περιουσιακών στοιχείων είναι μια χρονοβόρα διαδικασία για τους καλλιτέχνες, καθιστώντας την αυτόματη παραγωγή έναν μακροπρόθεσμο στόχο για τους ερευνητές», γράφει η ερευνητική ομάδα της εταιρείας σε μια τεχνική έκθεση. Το αναβαθμισμένο σύστημα AI βασίζεται στα θεμέλια του προκατόχου του, ενώ παράλληλα εισάγει σημαντικές βελτιώσεις στην ταχύτητα και την ποιότητα.

Το Hunyuan3D 2.0 χρησιμοποιεί δύο βασικά συστατικά: Το Hunyuan3D-DiT δημιουργεί το βασικό σχήμα, ενώ το Hunyuan3D-Paint προσθέτει επιφανειακές λεπτομέρειες. Το σύστημα κάνει πρώτα πολλαπλές 2D προβολές ενός αντικειμένου και στη συνέχεια τις κατασκευάζει σε ένα πλήρες 3D μοντέλο. Ένα νέο σύστημα καθοδήγησης διασφαλίζει ότι όλες οι όψεις του αντικειμένου ταιριάζουν, λύνοντας ένα κοινό πρόβλημα στα 3D μοντέλα που δημιουργούνται με AI.

«Τοποθετούμε κάμερες σε συγκεκριμένα ύψη για να καταγράψουμε τη μέγιστη ορατή περιοχή κάθε αντικειμένου», εξηγούν οι ερευνητές. Αυτή η προσέγγιση, σε συνδυασμό με τη μέθοδό τους για την ανάμειξη διαφορετικών οπτικών γωνιών, βοηθά το σύστημα να συλλάβει λεπτομέρειες που άλλα μοντέλα συχνά χάνουν, ειδικά στις κορυφές και τους πυθμένες των αντικειμένων.

Τα τεχνικά αποτελέσματα είναι εντυπωσιακά. Το Hunyuan3D 2.0 παράγει πιο ακριβή και οπτικά ελκυστικά μοντέλα από τα υπάρχοντα συστήματα, σύμφωνα με τις τυπικές μετρήσεις της βιομηχανίας. Η standard έκδοση δημιουργεί ένα πλήρες τρισδιάστατο μοντέλο σε περίπου 25 δευτερόλεπτα, ενώ μια μικρότερη, ταχύτερη έκδοση λειτουργεί σε μόλις 10 δευτερόλεπτα.

Αυτό που διαφοροποιεί το Hunyuan3D 2.0 είναι η ικανότητά του να χειρίζεται τόσο εισόδους κειμένου όσο και εικόνας, καθιστώντας το πιο ευέλικτο από τις προηγούμενες λύσεις. Το σύστημα εισάγει επίσης καινοτόμες λειτουργίες όπως η «προσαρμοστική καθοδήγηση χωρίς ταξινομητή» και οι «υβριδικές είσοδοι» που βοηθούν στη διασφάλιση της συνέπειας και της λεπτομέρειας στα παραγόμενα τρισδιάστατα μοντέλα.

Σύμφωνα με τα δημοσιευμένα benchmarks τους, το Hunyuan3D 2.0 επιτυγχάνει βαθμολογία CLIP 0,809, ξεπερνώντας τόσο τις εναλλακτικές λύσεις ανοικτού κώδικα όσο και τις ιδιόκτητες. Η τεχνολογία εισάγει σημαντικές βελτιώσεις στη σύνθεση υφών και τη γεωμετρική ακρίβεια, ξεπερνώντας τις υπάρχουσες λύσεις σε όλες τις τυποποιημένες βιομηχανικές μετρήσεις.

Η βασική τεχνική πρόοδος του συστήματος είναι η ικανότητά του να δημιουργεί μοντέλα υψηλής ανάλυσης χωρίς να απαιτεί τεράστια υπολογιστική ισχύ. Η ομάδα ανέπτυξε έναν νέο τρόπο αύξησης της λεπτομέρειας, διατηρώντας παράλληλα τις απαιτήσεις επεξεργασίας διαχειρίσιμες, ένας συχνός περιορισμός άλλων συστημάτων 3D AI.

Αυτές οι πρόοδοι έχουν σημασία για πολλές βιομηχανίες. Οι προγραμματιστές παιχνιδιών μπορούν να δημιουργούν γρήγορα δοκιμαστικές εκδόσεις χαρακτήρων και περιβαλλόντων. Τα ηλεκτρονικά καταστήματα μπορούν να παρουσιάζουν προϊόντα σε 3D. Τα κινηματογραφικά στούντιο θα μπορούσαν να κάνουν πιο αποτελεσματική προεπισκόπηση των ειδικών εφέ.

Η Tencent έχει μοιραστεί σχεδόν όλα τα μέρη του συστήματός της μέσω του Hugging Face. Οι προγραμματιστές μπορούν τώρα να χρησιμοποιήσουν τον κώδικα για να δημιουργήσουν τρισδιάστατα μοντέλα που λειτουργούν με το τυπικό λογισμικό σχεδιασμού, καθιστώντας το πρακτικό για άμεση χρήση σε επαγγελματικές ρυθμίσεις.

Αν και αυτή η τεχνολογία σηματοδοτεί ένα σημαντικό βήμα προς τα εμπρός στην αυτοματοποιημένη τρισδιάστατη δημιουργία, εγείρει ερωτήματα σχετικά με το πώς θα εργάζονται οι καλλιτέχνες στο μέλλον. Η Tencent βλέπει το Hunyuan3D 2.0 όχι ως αντικατάσταση των ανθρώπων καλλιτεχνών, αλλά ως ένα εργαλείο που χειρίζεται τα τεχνικά καθήκοντα, ενώ οι δημιουργοί επικεντρώνονται στις καλλιτεχνικές αποφάσεις.

Καθώς το τρισδιάστατο περιεχόμενο γίνεται όλο και πιο κεντρικό στα video games, τα ψώνια και την ψυχαγωγία, εργαλεία όπως το Hunyuan3D 2.0 υποδηλώνουν ένα μέλλον όπου η δημιουργία εικονικών κόσμων είναι τόσο απλή όσο και η περιγραφή τους. Η πρόκληση μπροστά μας μπορεί να μην είναι η δημιουργία τρισδιάστατων μοντέλων, αλλά η απόφαση για το τι θα γίνει με αυτά.

Loading