τα λόγια του τοίχου: Τα μυστικά του Google

Τετάρτη 10 Νοεμβρίου 2010

Τα μυστικά του Google

Οι μηχανές αναζήτησης; Χρήσιμα εργαλεία. Όμως στο μέλλον θα είναι ακόμα καλύτερες, σαν αυτές στο Star Trek. Έτσι λέει ο πατέρας του Google.

Φανταστείτε ένα βιβλιοθηκάριο που δεν ξέρει λέξη ελληνικά, ο οποίος απλώς καταφέρνει να αναγνωρίσει δύο όμοιες λέξεις σε μια σελίδα, χωρίς να καταλαβαίνει το νόημά τους. Και περιορίζεται στον έλεγχο της μιας αίθουσας από τις 4 που διαθέτει η βιβλιοθήκη, χωρίς να πηγαίνει στα τεράστια υπόγεια... Θα του αναθέτατε την αναζήτηση ενός βιβλίου που σας ενδιαφέρει; Πιθανώς όχι. Κι όμως, αυτό κάνετε όταν πληκτρολογείτε μια αναζήτηση στο Google και τις άλλες μηχανές αναζήτησης.

Για να ρίξουμε φως στα όρια του διαδικτύου σήμερα και να καταλάβουμε πώς θα είναι σε 20 χρόνια, δε χρειάζεται να πάμε μέχρι τις ΗΠΑ. Αρκεί να μπούμε στο Πανεπιστήμιο της Πάδοβας και να κάνουμε μια κουβέντα με τον Μάσιμο Μαρκιόρι, καθηγητή πληροφορικής. Είναι μόλις 40 ετών αλλά χάρη σε αυτόν εξελίχτηκαν οι μηχανές αναζήτησης: το 1997 επινόησε έναν αλγόριθμο που επέτρεψε τη γέννηση του Google και των μηχανών αναζήτησης δεύτερης γενιάς.

Και μάλιστα, μέχρι την προηγούμενη χρονιά ήταν απελπισμένος, καθώς δεν κατάφερνε να κερδίσει τους πανεπιστημιακούς διαγωνισμούς, που συχνά είναι κλειστοί σε όσους δεν έχουν συστάσεις. Έτσι έστειλε το βιογραφικό του στις ΗΠΑ, στο MIT της Βοστόνης, όπου ο εφευρέτης του διαδικτύου, ο Τιμ Μπέρνερς-Λι, του είπε: «Το πανεπιστήμιό μας είναι πλήρες, αλλά για εσάς θα κάνουμε μια εξαίρεση: καλώς ήρθατε». Αφού επινόησε τον αλγόριθμο του Google (χωρίς να κερδίσει ούτε ένα ευρώ), το 2000 απέρριψε προτάσεις των 50.000 δολαρίων μηνιαίως, για να επιστρέψει και να διδάξει στην Ιταλία, με 970 ευρώ το μήνα: «Τα χρήματα δεν είναι το παν. Προτιμώ να διαπλάθω τους νέους της χώρας μου και να κάνω έρευνα ελεύθερα». Οι φοιτητές ανταπέδωσαν την αφοσίωσή του, αφιερώνοντάς του ένα φαν κλαμπ στο ίντερνετ.

Πώς λειτουργούσαν οι μηχανές αναζήτησης πριν από το Google;
«Έψαχναν σε κάθε ιστοσελίδα τη λέξη που είχε εισαχθεί στην αναζήτηση και επιβράβευαν τις επαναλήψεις: αν μια σελίδα ανέφερε πολλές φορές εκείνη τη λέξη, εμφανιζόταν στην κορυφή της λίστας των αποτελεσμάτων. Ήταν όμως ένας χαζός τρόπος εργασίας, καθώς οι μηχανές (Altavista, Lycos και Excite) περιορίζονταν στην αναζήτηση μεμονωμένων σελίδων, χωρίς να ερευνούν τις σχέσεις με τις άλλες σελίδες. Και τα αποτελέσματα των ερευνών ήταν ανεπαρκή. Αν πληκτρολογούσατε “rose”, θα εμφανίζονταν σελίδες για μνημεία, πόλεις, εταιρείες, αλλά όχι για το λουλούδι».

Τότε εσείς τι κάνατε;
«Διεύρυνα την προοπτική. Αν θέλω να καταλάβω έναν άνθρωπο σημαδεύοντας τα κιάλια πάνω στο πρόσωπό του, παίρνω ελλιπείς πληροφορίες. Αν όμως διευρύνω το πεδίο, βλέπω ότι κάνει χειραψία με ένα μαφιόζο, παίρνω μια πιο σημαντική πληροφόρηση... Οι σχέσεις με τις άλλες ιστοσελίδες, τα links, είναι αυτές που μας δίνουν να καταλάβουμε αν μια σελίδα είναι χρήσιμη. Έτσι επεξεργάστηκα ένα μαθηματικό μοντέλο που έδινε φθίνουσα βαθμολογία (από 1 ως 0) σε κάθε σελίδα με link, και το δοκίμασα. Αφού τελειοποίησα τον αλγόριθμο, που ονομάστηκε hypersearch, τα αποτελέσματα των αναζητήσεων βελτιώθηκαν κατά 60%. Το 1997 παρουσίασα την έρευνα στη Διεθνή Διάσκεψη Διαδικτύου στη Σάντα Κλάρα (ΗΠΑ): εκεί ο Λόρενς Πέιτζ (ένας από τους δύο ιδρυτές του Google, Σ.τ.Σ.) ζητούσε επίμονα πληροφορίες και το 1998 λάνσαρε το Google, που βασιζόταν ακριβώς σε αυτόν τον αλγόριθμο. Όμως με μια διόρθωση: ενώ ο αλγόριθμός μου επιβράβευε τις πιο χρήσιμες σελίδες, δηλαδή αυτές που είχαν τα περισσότερα links, αυτός του Google, το pagerank, επιβραβεύει τις πιο δημοφιλείς ιστοσελίδες» (βλ. πάνω).

Έκτοτε τι άλλαξε;
«Η έλευση του Google έφερε επανάσταση στο ίντερνετ: για να έχουν μεγαλύτερη «ορατότητα», οι σελίδες εισήγαγαν πολλά links, ακόμα και με αυτόματο τρόπο. Και αυτό αποδυνάμωσε την αξία των links. Ενώ πριν από 10 χρόνια ήταν μια συνειδητή επιλογή, σήμερα είναι πληθωριστικά. Γι’ αυτό, οι μηχανές αναζήτησης συνεχίζουν να διορθώνουν τις επιδόσεις τους με τα tweak, τις διορθώσεις στον αλγόριθμο, που είναι εκατοντάδες το χρόνο. Με αυτά τα «μπαλώματα» οι μηχανές αναζήτησης τα βγάζουν πέρα, καλώς ή κακώς, όμως εξισώνουν τους πάντες. Οι μηχανές αναζήτησης σήμερα είναι σαν την τηλεόραση: δε δυσαρεστεί κανέναν, αλλά δεν εμβαθύνει σε τίποτα».

Ποια είναι τα όρια του Google;
«Διάφορα. Πολλοί πιστεύουν ότι το Google βολιδοσκοπεί τις ιστοσελίδες σε όλο τον κόσμο. Όμως δεν είναι έτσι: σύμφωνα με τις εκτιμήσεις μου, σήμερα το Google κάνει έρευνες στο 35% των σελίδων» (όμως μόνο στο επιφανειακό διαδίκτυο, που είναι το 1/500 του συνολικού: βλ. σχέδιο στην επόμενη σελίδα).

Με ποιο κριτήριο το Google επιλέγει πού να ψάξει;
«Κανείς δεν το ξέρει: είναι ένα βιομηχανικό μυστικό. Αν ήταν ένα αμερόληπτο και αυτόματο κριτήριο, θα ήταν αποδεκτό. Υπάρχει όμως και η ανθρώπινη παρέμβαση. Όλα τα λήμματα της Wikipedia θεωρούνται “πρώτης τάξης”, γιατί δίνουν γενικές πληροφορίες και συνεπώς καταλήγουν πάντα στις πρώτες θέσεις των αποτελεσμάτων της αναζήτησης. Όμως οι “υποδείξεις” μπορεί να είναι λιγότερο αμερόληπτες. Το Google διαθέτει το Doubleclick, τη μεγαλύτερη διαφημιστική εταιρεία του διαδικτύου. Ποιος μας εγγυάται, λοιπόν, ότι δεν επιβραβεύει τους πελάτες της με μεγαλύτερη “ορατότητα” στις αναζητήσεις; Το 2003 το Google είχε δημοσιεύσει το pagerank: για κάποιες ιστοσελίδες, όπως το Google, ήταν μεγαλύτερο από 10, το οποίο είναι ανέφικτο χωρίς ανθρώπινη παρέμβαση. Και τίποτα δεν μας εμποδίζει να σκεφτούμε ότι μπορούν να δημιουργηθούν προνομιακές λωρίδες στην οικονομία ή την πολιτική: η λογοκρισία του Google στην Κίνα είναι ένα παράδειγμα... Το γεγονός ότι το Google δεν αποκαλύπτει τα κριτήριά του είναι σαν τις εκλογές χωρίς έλεγχο στην καταμέτρηση των ψήφων: αναπόφευκτα κάποιος θα μπορέσει να επωφεληθεί. Όμως αυτά τα προβλήματα ισχύουν για όλες τις μηχανές αναζήτησης, όχι μόνο για το Google. Το ιδανικό θα ήταν μια “διάφανη” μηχανή αναζήτησης, open source, που θα αποκάλυπτε τα κριτήρια που υιοθέτησε στην επιλογή και την επιβράβευση των σελίδων. Όμως ακόμα και αυτή η λύση έχει κάποιες αντενδείξεις: αν κάποιος ξέρει πώς λειτουργεί μια μηχανή αναζήτησης, θα μπορέσει να επωφεληθεί, για να κατασκευάσει σελίδες που προσαρμόζονται σε αυτά τα κριτήρια, αποκτώντας έτσι μια προνομιακή λωρίδα».

Και τα θέματα απορρήτου;
«Αυτό είναι άλλη μια σκοτεινή όψη. Το Google διατηρεί για πάντα τα δεδομένα κάθε χρήστη για τις ιστοσελίδες που επισκέφτηκε και τις αναζητήσεις που έκανε. Μόλις το 2007, μετά από διαμαρτυρίες της ΕΕ, αποφάσισε να τις κάνει ανώνυμες μέσα σε δύο χρόνια από την καταγραφή τους. Όμως ποιος ελέγχει ότι όντως το κάνει; Και τι γίνεται με τις άλλες μηχανές αναζήτησης, όπως το Yahoo και το Bing; Όλοι έχουν μια τρελή περιουσία: μπορούν να αποθηκεύσουν τις αγορές, τις σεξουαλικές, πολιτικές, θρησκευτικές προτιμήσεις του καθένα μας. Το Google διαβάζει, αν και με αυτόματο τρόπο, τα μέιλ μας: αν γράψουμε “Παρίσι”, θα εμφανιστούν διαφημίσεις για ταξίδια στο Παρίσι. Και φέτος, στη Γερμανία, ανακάλυψαν ότι τα αυτοκίνητα του StreetView, που φωτογραφίζουν τους δρόμους για το Google Maps, κατέγραψαν “κατά λάθος” 600 GB δεδομένων σχετικά με την κυκλοφορία στα ασύρματα δίκτυα που συνάντησαν στη διαδρομή τους. Και πιθανώς αυτό συνέβη κι αλλού. Οι μηχανές αναζήτησης έχουν μια γιγαντιαία βάση δεδομένων με πληροφορίες - πώς θα τις χρησιμοποιήσουν; Η αστυνομία θα πρέπει να κάνει σφαιρικούς ελέγχους, για να αποφευχθούν οι αυθαιρεσίες».

Μια εξουσία χωρίς όρια...
«Η οποία μπορεί να αυξηθεί. Σήμερα το διαδίκτυο είναι φιλελεύθερο. Όποιος πληκτρολογεί μια αναζήτηση δεν μπορεί να επιλέξει ποιο ταξίδι θα κάνουν τα δεδομένα του. Το πακέτο των bytes διατρέχει τα τηλεφωνικά καλώδια και φτάνει στο σέρβερ, που τα ταξινομεί χωρίς διακρίσεις. Όμως το 2008 το Google ζήτησε από τις εταιρείες τηλεπικοινωνιών να έχει προνομιακές λωρίδες για τα δεδομένα του: αν συμβεί αυτό, οι σελίδες του Google (και των πιο ισχυρών ιστοσελίδων) θα φορτώνονται αμέσως, ενώ οι υπόλοιπες πιο αργά. Και έτσι θα τελειώσει η δημοκρατία του διαδικτύου».

Ποια θα είναι η επόμενη εξέλιξη των μηχανών αναζήτησης;
«Το σημασιολογικό διαδίκτυο. Σήμερα οι υπολογιστές δεν καταλαβαίνουν αυτό που κάνουν: είναι σαν έναν άνθρωπο που δε γνωρίζει κινέζικα αλλά μπορεί απλά να παρατηρήσει αν το ίδιο ιδεόγραμμα επαναλαμβάνεται σε διάφορες σελίδες. Στο σημασιολογικό διαδίκτυο, όμως, οι υπολογιστές θα είναι σε θέση να καταλαβαίνουν αυτό που θέλει ο χρήστης. Ήδη σήμερα αν γράψω “ποτό”, οι μηχανές αναζήτησης ψάχνουν και σε σελίδες που περιέχουν συνώνυμα (κοκτέιλ, απεριτίφ, ουίσκι...). Μέσα στο 2020, με σταδιακό και αόρατο τρόπο, οι μηχανές αναζήτησης θα μπορούν να καταλαβαίνουν το νόημα σύνθετων φράσεων όπως “Πού είναι το πιο κοντινό εστιατόριο όπου το κρασί δεν είναι πολύ ακριβό;”. Το ιδανικό θα ήταν να αναπαραγάγουμε στον υπολογιστή τους συνειρμούς του εγκέφαλου. Όμως για να διαχειριστούμε τον όγκο δεδομένων, θα χρειαζόμασταν υπερυπολογιστές, που θα ήταν όμως πολύ αργοί».

Πώς φαντάζεστε το διαδίκτυο του μέλλοντος;
«Μια μηχανή αναζήτησης στο στιλ του Star Trek, που εκτελεί τις φωνητικές εντολές. Θα μπορεί να προσαρμόζεται στις λεκτικές ικανότητές μας, χωρίς να χρειάζεται να μελετά το εγχειρίδιο χρήσης. Και θα έχει τρισδιάστατη διεπιφάνεια, για να χειριζόμαστε τις εικόνες. Το διαδίκτυο, χάρη στο GPS, θα μας ακολουθεί παντού: θα ξέρει πού βρισκόμαστε και θα μας κάνει να αλληλεπιδράμε με το χώρο».

ΠΗΓΗ:Focus