Ελληνικό λογισμικό προβλέπει φύλο και ηλικία ανώνυμων χρηστών στα social media

Ο διαφορετικός τρόπος που εκφράζονται τα δύο φύλα, είναι δυνατό να αναγνωρισθεί από τους αλγόριθμους τεχνητής νοημοσύνης του προγράμματος λογισμικού

Ένα πρωτοποριακό για τα ελληνικά δεδομένα λογισμικό, που έχει αναπτύξει ένας Έλληνας ερευνητής και οι συνεργάτες του, μπορεί να αναλύει τα κείμενα ανώνυμων συγγραφέων στα μέσα κοινωνικής δικτύωσης και να προβλέπει σωστά το φύλο, την ηλικία τους, αλλά και ψυχολογικά χαρακτηριστικά της προσωπικότητάς τους.

Ακόμη και σε μικρά κείμενα, π.χ. στo Twitter, το λογισμικό -που «διαβάζει» ελληνικά, αγγλικά, ισπανικά και ιταλικά- κάνει αυτόματη αναγνώριση φύλου του συγγραφέα με ακρίβεια πάνω από 90%. Για μεγαλύτερες αναρτήσεις στα κοινωνικά δίκτυα ή για ακόμη μεγαλύτερα κείμενα (π.χ. των 5.000 λέξεων), η ακρίβεια μπορεί να προσεγγίσει το 100%. Για την εκτίμηση της ηλικίας και χαρακτηριστικών γνωρισμάτων της προσωπικότητας, η ακρίβεια κυμαίνεται μεταξύ 40% έως 70%.

Σε συνέντευξή του στο Αθηναϊκό και Μακεδονικό Πρακτορείο Ειδήσεων, ο δημιουργός του λογισμικού Γιώργος Μικρός, καθηγητής Υπολογιστικής & Ποσοτικής Γλωσσολογίας και πρόεδρος του Τμήματος Ιταλικής Γλώσσας & Φιλολογίας του Πανεπιστημίου Αθηνών, καθώς και αντιπρόεδρος της Διεθνούς Εταιρείας Ποοσοτικής Γλωσσολογίας, τονίζει ότι υπάρχει διαφορετική βιολογική βάση στο γλωσσικό μηχανισμό των ανδρών και των γυναικών, ενώ οι γυναίκες εμφανίζουν καλύτερη επεξεργασία της γλώσσας.

Όπως λέει, οι γυναίκες χρησιμοποιούν και τα δύο ημισφαίρια για την παραγωγή του λόγου, ενώ οι άνδρες μόνο το αριστερό. Επίσης οι γυναίκες υπερτερούν έναντι των ανδρών στις γλωσσικές δοκιμασίες και ο λόγος τους είναι συνήθως πιο «επίσημος».

Ο διαφορετικός τρόπος που εκφράζονται τα δύο φύλα, είναι δυνατό να αναγνωρισθεί από τους αλγόριθμους τεχνητής νοημοσύνης του προγράμματος λογισμικού που έχει αναπτύξει ο κ. Μικρός και το οποίο μπορεί να αναλύσει ένα ανώνυμο κείμενο, συμπεραίνοντας αν έχει γραφτεί από άνδρα ή γυναίκα. Το λογισμικό μπορεί ακόμη να εξάγει συμπεράσματα για την ηλικία του συγγραφέα, αλλά και για βασικά χαρακτηριστικά της προσωπικότητάς του.
Λογισμικά αυτού του είδους ανήκουν στο πεδίο της Υφομετρίας (Stylometry), που συνδυάζει τεχνικές της Γλωσσολογίας και της Πληροφορικής. Ο κ. Μικρός ξεκίνησε να αναπτύσσει το εν λόγω πρόγραμμα το 2007 και ακόμη το τελειοποιεί, σε συνεργασία με ερευνητές στις ΗΠΑ.

«Οι πιθανές πρακτικές εφαρμογές του είναι πολλές» όπως λέει. Κατ' αρχήν στην εγκληματολογία (π.χ. για την ταυτοποίηση του συγγραφέα μιας τρομοκρατικής προκήρυξης ή μιας ανώνυμης απειλητικής επιστολής), στη φιλολογία (π.χ. για την ανίχνευση της λογοτεχνικής πατρότητας παλαιών κειμένων), στον εντοπισμό κάθε είδους λογοκλοπών (π.χ. σε μια φοιτητική ή άλλη εργασία), στη διερεύνηση της δυναμικής της κοινής γνώμης στο διαδίκτυο (π.χ. μέσω της ανάλυσης της συναισθηματικής φόρτισης που εμπεριέχουν οι αναρτήσεις των κοινωνικών δικτύων για έναν πολιτικό ή μια εταιρεία), στην εκπαίδευση κ.α.

Ο Γ.Μικρός είναι επίσης συνεργαζόμενος καθηγητής στο Τμήμα Εφαρμοσμένης Γλωσσολογίας του Πανεπιστημίου της Μασαχουσέτης στη Βοστώνη, από το 1992 επιστημονικός συνεργάτης του Ινστιτούτου Επεξεργασίας του Λόγου του Ερευνητικού Κέντρου «Αθηνά» (όπου έχει συμβάλει στην ανάπτυξη λογισμικού γλωσσικής τεχνολογίας), ενώ από φέτος είναι διευθυντής του προγράμματος για την «Ισπανική Γλώσσα και τον Πολιτισμό» του Ελληνικού Ανοιχτού Πανεπιστημίου.

Την Παρασκευή 21 Οκτωβρίου (στις 19:00), θα μιλήσει στο Μουσείο Ηρακλειδών στο Θησείο, σε εκδήλωση της Ομάδας «Θαλής+Φίλοι», με θέμα «Πόσο διαφορετικά γράφουν άνδρες και γυναίκες; Προβλέποντας το φύλο του συγγραφέα στα Μέσα κοινωνικής Δικτύωσης».

Ακολουθεί η συνέντευξη:

ΕΡ: Υπάρχει όντως διαφορετική βιολογική βάση στο γλωσσικό μηχανισμό των γυναικών και των ανδρών;

ΑΠ: Ναι, πράγματι οι γυναίκες χρησιμοποιούν και τα δύο ημισφαίρια του εγκεφάλου τους κατά την παραγωγή λόγου, ενώ οι άνδρες αξιοποιούν μόνο το ένα, το αριστερό. Επίσης, οι γυναίκες παρουσιάζουν μια σειρά από ανατομικές διαφοροποιήσεις σε τμήματα του εγκεφάλου τους σε σχέση με τα αντίστοιχα των ανδρών. Όλες αυτές οι διαφορές λειτουργούν υπέρ της γυναικείας γλωσσικής χρήσης καθώς επιτρέπουν τη διαλειτουργικότητα των εγκεφαλικών ημισφαιρίων, κατά τη γλωσσική παραγωγή και την ταχύτερη και ποιοτικότερη επεξεργασία των γλωσσικών δεδομένων.

ΕΡ: Είναι, λοιπόν, αλήθεια ότι οι γυναίκες υπερτερούν στη γλωσσική επεξεργασία σε σχέση με τους άνδρες;

ΑΠ: Ναι. Όλες οι μελέτες που έχουν γίνει στην εκπαίδευση, έχουν δείξει ότι οι γυναίκες έχουν ένα μικρό, αλλά σταθερό προβάδισμα στις γλωσσικές δοκιμασίες σε σχέση με τους άνδρες. Αυτή η υπεροχή έχει πιστοποιηθεί διαχρονικά, αλλά και διαπολιτισμικά, καθώς φαίνεται να ισχύει ανεξαρτήτως της εθνικότητας και του πολιτισμικού υπόβαθρου των ομιλητών.
Επίσης, οι γυναίκες χρησιμοποιούν στην ομιλία τους πάντα περισσότερους γλωσσικούς τύπους υψηλού κύρους και προτιμούν τον κοινωνικά καταξιωμένο γλωσσικό κώδικα σε αντίθεση με τους άνδρες, που συχνά υιοθετούν γλωσσικά στοιχεία χαμηλότερου κοινωνικού κύρους. Τέλος, οι γυναίκες, σε παγκόσμιο επίπεδο, εμφανίζουν χαμηλότερα ποσοστά παθολογιών γλωσσικής ανάπτυξης, καθώς και γρηγορότερη και αποτελεσματικότερη ανάκαμψη στις γλωσσικές τους λειτουργίες μετά από εγκεφαλικά επεισόδια.

ΕΡ: Υπάρχουν κάποιες βασικές διαφορές ανάμεσα στους άνδρες και στις γυναίκες στην έκφρασή τους και μπορεί πράγματι ένας αλγόριθμος να «πιάσει» αυτές τις διαφοροποιήσεις;

ΑΠ: 'Ανδρες και γυναίκες έχουν ριζικά διαφορετικούς τρόπους γλωσσικής έκφρασης. Οι διαφορές ξεκινούν από το λεξιλόγιο, τις συντακτικές επιλογές και επεκτείνονται σε ένα πλήθος γλωσσικών χαρακτηριστικών που είναι υποσυνείδητα ως προς την λειτουργία τους. Περιλαμβάνουν, μεταξύ άλλων, το μήκος των λέξεων, το μήκος των προτάσεων, την συχνότητα συγκεκριμένων ακολουθιών χαρακτήρων, καθώς και μερών του λόγου. Αυτά είναι μερικά από τα χαρακτηριστικά που αξιοποιούν οι αλγόριθμοι τεχνητής νοημοσύνης για να κατασκευάσουν στατιστικά μοντέλα ανδρικής και γυναικείας γλωσσικής χρήσης και, στη συνέχεια, να τα αξιοποιήσουν στην ανάλυση και την πρόβλεψη του φύλου του συγγραφέα ενός αγνώστου πατρότητας κειμένου.

ΕΡ: Πόσο αποτελεσματικό είναι το λογισμικό σας στην αναγνώριση, του φύλου, της ηλικίας ή της προσωπικότητας;

ΑΠ: Τα ποσοστά ορθής αναγνώρισης του φύλου του συγγραφέα υπερβαίνουν το 90%, ακόμα και όταν τα κείμενα που χρησιμοποιούνται, είναι εξαιρετικά μικρά σε μέγεθος, όπως π.χ. τα tweets που δεν υπερβαίνουν τους 140 χαρακτήρες. Αντίστοιχα, η ακρίβεια του προσδιορισμού της ηλικιακής κατηγορίας ενός συγγραφέα κυμαίνεται από 40 έως 70%, ανάλογα με τα γλωσσικά χαρακτηριστικά που θα χρησιμοποιηθούν και τα κείμενα που θα δοθούν για να εκπαιδευτεί ο αλγόριθμος. Η ακρίβεια του εντοπισμού της προσωπικότητας του συγγραφέα κυμαίνεται σε αντίστοιχα επίπεδα με αυτά της ηλικιακής κατηγορίας, αν και τα τελευταία χρόνια οι αλγόριθμοι γίνονται περισσότερο ακριβείς και τα προαναφερθέντα ποσοστά βαίνουν αυξανόμενα.

ΕΡ: Ποιες μπορεί να είναι οι πρακτικές εφαρμογές ενός τέτοιου λογισμικού;

ΑΠ: Ένα τέτοιο λογισμικό μπορεί να χρησιμοποιηθεί για τον εντοπισμό της πατρότητας ανώνυμων εγγράφων σε ένα μεγάλο φάσμα περιστάσεων. Κείμενα τα οποία παρουσιάζουν εγκληματολογικό ενδιαφέρον, μπορούν να αναλυθούν από ένα τέτοιο λογισμικό και να εξαχθούν χρήσιμα συμπεράσματα ως προς την ταυτότητα του συντάκτη τους, καθώς και διάφορα χαρακτηριστικά του, όπως είναι το φύλο του, η ηλικία του και η προσωπικότητά του.

Σημαντική, επίσης, εφαρμογή μπορεί να γίνει σε περιπτώσεις διερεύνησης πατρότητας κειμένων ιστορικού και φιλολογικού ενδιαφέροντος, με ενδεικτικό παράδειγμα μια πρόσφατη μελέτη που ολοκληρώθηκε το 2012 και απέδωσε ανώνυμες μεταφράσεις του 19ου αιώνα στον Παπαδιαμάντη.

Ένας άλλος τομέας ανάλυσης στον οποίο χρησιμοποιείται το συγκεκριμένο λογισμικό, είναι η ανάλυση της αναγνωστικής δυσκολίας των κειμένων και η αυτόματη κατηγοριοποίησή τους σε επίπεδα δυσκολίας, ανάλογα με το εκπαιδευτικό επίπεδο των μαθητών που απευθύνονται.

Τέλος, το λογισμικό αυτό μπορεί να χρησιμοποιηθεί για να διερευνήσει την συναισθηματική φόρτιση του κειμένου και να αποφανθεί κατά πόσο ο συντάκτης του διατηρεί μια θετική ή αρνητική στάση για το θέμα που πραγματεύεται. Ένα πραγματικό σενάριο χρήσης είναι π.χ. η αυτόματη αξιολόγηση μιας κριτικής για ένα εστιατόριο και ο προσδιορισμός της ως θετικής ή αρνητικής.

ΕΡ: Πότε θα έχετε ολοκληρώσει το λογισμικό και θα είναι έτοιμο για εφαρμογή από χρήστες;

ΑΠ: Το λογισμικό που έχει αναπτυχθεί, είναι εργαστηριακό πρωτότυπο. Η ανάπτυξη του ξεκίνησε το 2007 και βρίσκεται ακόμα σε φάση εξέλιξης. Το μεγάλο φάσμα δυνητικών εφαρμογών του μας έχει προσανατολίσει στη σταδιακή αναδόμησή του, ώστε να μπορεί να χρησιμοποιηθεί από φορείς ή άτομα που θα μπορούσαν να επωφεληθούν από τις αναλυτικές του ικανότητες. Στο πλαίσιο αυτό, έχουμε ενεργή συνεργασία με ερευνητικές ομάδες στις ΗΠΑ, με τις οποίες συνεργαζόμαστε στενά, ώστε να προκύψει ένα λογισμικό, το οποίο θα μπορεί να αναλύσει κείμενα σε πολλές γλώσσες και να είναι παράλληλα φιλικό στον χρήστη.

ΕΡ: Δώστε μας μια συνοπτική εικόνα τι είναι και τι επιδιώκει η Υπολογιστική Υφολογία;

ΑΠ: Η Υπολογιστική Υφολογία είναι ένας διεπιστημονικός κλάδος που διερευνά τον τρόπο γραφής των κειμένων και το πώς αυτός συνδέεται με την ταυτότητα του συγγραφέα τους ή και με άλλα χαρακτηριστικά του όπως το φύλο, η ηλικία, τα ψυχολογικά χαρακτηριστικά του. Ο συγκεκριμένος κλάδος απαιτεί την εντατική συνεργασία επιστημών όπως η Γλωσσολογία, η Επεξεργασία Φυσικής Γλώσσας, η Λογοτεχνική Ανάλυση, η Στατιστική, η Ανάκτηση Πληροφορίας, η Τεχνητή Νοημοσύνη και, ειδικότερα, ο κλάδος της Μηχανικής Μάθησης.

Ο αυτόματος εντοπισμός συγγραφέα έχει κάνει την τελευταία δεκαετία σημαντική πρόοδο, τόσο ως προς την αξιοπιστία των μεθόδων, όσο και ως προς την αποτελεσματικότητα και την ευαισθησία των τεχνικών που έχουν αναπτυχθεί.
Αυτό που θα πρέπει να τονιστεί, είναι ότι, όπως κάθε εργαλείο στα ανειδίκευτα χέρια μπορεί να γίνει επικίνδυνο, έτσι και στην υφομετρική ανάλυση, η απόδοση συγγραφικής πατρότητας σε κρίσιμα πραγματικά προβλήματα (π.χ. εγκληματολογικού ενδιαφέροντος) θα πρέπει να γίνεται κάτω από συγκεκριμένες αυστηρές προδιαγραφές, οι οποίες ελαχιστοποιούν το πειραματικό λάθος.