Το INSAIT του Πανεπιστημίου της Σόφιας, σε συνεργασία με κορυφαία διεθνή ερευνητικά ιδρύματα, ανακοίνωσε τη διάθεση του SceneSplat-49k. Πρόκειται για τη μεγαλύτερη συλλογή ανοιχτού κώδικα υψηλής ποιότητας, σύνθετων τρισδιάστατων σκηνών σε μορφή Gaussian Splatting, συνοδευόμενη από το SceneSplat-Benchmark, ένα ολοκληρωμένο σημείο αναφοράς αξιολόγησης για το Language Gaussian Splatting.
Το έργο αποτελεί προϊόν συνεργασίας του INSAIT με το Πανεπιστήμιο του Άμστερνταμ, το ETH Zurich (Computer Vision Lab), το Πανεπιστήμιο Αεροναυτικής και Αστροναυτικής της Ναντζίνγκ, το Πανεπιστήμιο Johns Hopkins, καθώς και τα Πανεπιστήμια της Πίζας και του Τρέντο. Η πρωτοβουλία αυτή θεωρείται σημαντικό βήμα για την επόμενη γενιά συστημάτων τρισδιάστατης όρασης-γλώσσας, με εφαρμογές στη ρομποτική, την εικονική και επαυξημένη πραγματικότητα και την ανθρωποκεντρική Τεχνητή Νοημοσύνη.
Το SceneSplat-49k περιλαμβάνει 48.856 ανακατασκευασμένες εσωτερικές και εξωτερικές σκηνές, εκ των οποίων οι 12.061 είναι εμπλουτισμένες με γλωσσικά χαρακτηριστικά. Η δημιουργία του συνόλου δεδομένων απαίτησε σημαντική ανθρώπινη εργασία και υπολογιστικούς πόρους που αντιστοιχούν σε 861 ημέρες GPU, διασφαλίζοντας υψηλό ρεαλισμό και ποικιλομορφία πραγματικών περιβαλλόντων.
Η τεχνολογία Language Gaussian Splatting επιτρέπει την αλληλεπίδραση φυσικής γλώσσας σε καθηλωτικά τρισδιάστατα περιβάλλοντα, δίνοντας τη δυνατότητα στα μοντέλα να συλλογίζονται γύρω από χωρικές σχέσεις και σημασιολογικές έννοιες απευθείας σε τρεις διαστάσεις. Μέχρι σήμερα, η πρόοδος στον συγκεκριμένο τομέα περιοριζόταν λόγω έλλειψης μεγάλων και ποιοτικών τρισδιάστατων συνόλων δεδομένων, καθώς και τυποποιημένων πρωτοκόλλων αξιολόγησης.
Το SceneSplat-Benchmark έρχεται να καλύψει αυτό το κενό, εισάγοντας πιο ρεαλιστικές και απαιτητικές ρυθμίσεις αξιολόγησης. Περιλαμβάνει 1.060 σκηνές και 325 σημασιολογικές κλάσεις, αξιολογώντας τα μοντέλα απευθείας στο τρισδιάστατο επίπεδο αντί για δισδιάστατες προβολές. Έτσι, επιτυγχάνεται πιο αξιόπιστη αξιολόγηση της κατανόησης σε επίπεδο τρισδιάστατης σκηνής.