Η ByteDance (TikTok) συγκεντρώνει δεδομένα από το Διαδίκτυο 25 φορές πιο γρήγορα από τον OpenAI

Η μητρική εταιρεία του TikTok, η ByteDance, συγκεντρώνει τεράστιους όγκους διαδικτυακών δεδομένων πολύ πιο γρήγορα από τους άλλους μεγάλους web crawlers. Η ByteDance ενδέχεται να σχεδιάζει να κυκλοφορήσει το δικό της LLM (μεγάλο γλωσσικό μοντέλο) και χρησιμοποιεί επιθετικά το web crawler της, το «Bytespider», για να μαζέψει δεδομένα για να εκπαιδεύσει τα μοντέλα της, όπως αναφέρει το Fortune.

Το Bytespider εμφανίστηκε στο προσκήνιο τον περασμένο Απρίλιο και από τότε, ο ρυθμός κατανάλωσής του βάζει σε δύσκολη θέση τους web scrapers από το OpenAI, τη Google, τη Meta και την Anthropic.

Ο Sam Crowther, CEO της Kasada, μιας εταιρείας που ειδικεύεται στη διαχείριση bot, δήλωσε στο πρακτορείο ότι ο ρυθμός απόξεσης του Bytespider είναι 25 φορές μεγαλύτερος από τον GPTbot του OpenAI και 3.000 φορές μεγαλύτερος από τον ρυθμό του ClaudeBot, ο οποίος είναι ο web crawler της Anthropic για το Claude LLM. Ο Crowther δήλωσε επίσης ότι τα δεδομένα της Kasada έχουν δει «τεράστιες αιχμές στη δραστηριότητα απόξεσης» από το Bytespider τις τελευταίες έξι εβδομάδες.

Καθώς το Bytespider καταναλώνει αχόρταγα τον ιστό, η κυβέρνηση των ΗΠΑ προσπαθεί να εμποδίσει την πιθανή πρόσβαση στα δεδομένα των αμερικανών χρηστών στην κινεζική κυβέρνηση. Τον Απρίλιο, ο πρόεδρος Biden υπέγραψε ένα νομοσχέδιο που επιβάλλει την απαγόρευση του TikTok, εκτός εάν πωληθεί από την ByteDance εντός του έτους. Δεδομένου ότι το χρονικό περιθώριο της ByteDance για την πώληση του TikTok είναι μικρό, η αίσθηση του επείγοντος ταιριάζει με τον τεράστιο ρυθμό της δραστηριότητας crawling στον ιστό, είτε για ένα LLM, είτε για έναν καλύτερο αλγόριθμο, είτε για κάτι άλλο που δεν γνωρίζουμε.

Το τι σκοπεύει να κάνει η ByteDance με όλα τα πρόσφατα εξορυγμένα δεδομένα της μένει να φανεί. Ωστόσο, το TikTok έχει δρομολογήσει αρκετές λειτουργίες με τεχνολογία Τεχνητής Νοημοσύνης για την πλατφόρμα. Τον Μάιο, ανακοίνωσε μια σουίτα εργαλείων για τους διαφημιστές για τη δημιουργία διαφημίσεων που παράγονται από AI, καθώς και avatars που παράγονται από AI για brands και δημιουργούς. Το TikTok φημολογείται επίσης ότι εργάζεται πάνω σε μια εσωτερική μηχανή αναζήτησης, με αποτελέσματα που θα τροφοδοτούνται από AI - πιθανώς χρησιμοποιώντας το ChatGPT.

[via]

Loading