cf80cebfceb9cebf ceb5ceafcebdceb1ceb9 cf84cebf cf83cf85cf87cebdcf8ccf84ceb5cf81cebf ceb3cf81ceaccebccebcceb1 cf83cf84ceb7cebd ceb5cebb

Καθώς έγραφα το χτεσινό άρθρο, όπου ανέφερα ότι το Π είναι πολύ συχνό ως αρχικό γράμμα λέξεων, θυμήθηκα ένα σχετικό κεφάλαιο από το βιβλίο μου Η γλώσσα έχει κέφια, που αφορά τις συχνότητες όλων των γραμμάτων και των αρκτικών γραμμάτων, το οποίο, αν θυμαμαι καλά (καθόλου σίγουρο αυτό, δυστυχώς) δεν το έχω δημοσιεύσει ποτέ ολόκληρο στο ιστολόγιο, αν και κάποια στοιχεία τα είχα χρησιμοποιήσει σε ένα κουίζ πριν από μερικά χρόνια. Οπότε, το σημερινό άρθρο. 

grammataΌταν ήμουν στις πρώτες τάξεις του Γυμνασίου, είχα επινοήσει ένα παιχνίδι για να περνάω τις ώρες που βαριόμουν στο μάθημα. Έχοντας ανοιχτό μπροστά μου το βιβλίο του μαθήματος, μετρούσα ποια γράμματα είναι τα συχνότερα –αλλά δεν το έκανα έτσι απλά, δεν έχει γούστο: έπαιζα ματς ποδοσφαίρου ανάμεσα στα γράμματα· αν λογουχάρη σε μιαν αράδα του βιβλίου υπήρχαν 5 Α και 2 Π, το Α είχε νικήσει το Π με 5-2. Κι επειδή τα γράμματα του αλφαβήτου μας είναι 24, τα είχα χωρίσει σε τρεις εθνικές κατηγορίες, με οχτώ ομάδες την καθεμία, και τα έβαζα να παίζουν ματς το ένα εναντίον του άλλου, με βαθμολογία, πρωταθλητή, ομάδες που υποβιβάζονταν ή που προβιβάζονταν.

Στο αλφαβητικό αυτό πρωτάθλημα κυριαρχούσε το Α, αν και δεν κέρδιζε όλα τα πρωταθλήματα. Κάποιες φορές, η συγκυρία ευνοούσε το Ο, σπανιότερα το Ι ή το Ε. Η πρώτη κατηγορία συμπληρωνόταν από το Ν, το Τ και το Σ ενώ η όγδοη θέση παιζόταν ανάμεσα σε πολλά γράμματα, όπως το Ρ, το Κ ή το Η.

Από αυτό το εφηβικό χασομέρι είχα βγάλει συμπεράσματα για τη συχνότητα των γραμμάτων του ελληνικού αλφαβήτου, τα οποία σε γενικές γραμμές συμπίπτουν με τα ευρήματα κανονικών επιστημονικών μελετών. Πράγματι, σύμφωνα με την εργασία των Protopappas et al: IPLR: an online resource for Greek word-level and sublexical information, (Protopappas et al., 2010), η συχνότητα των γραμμάτων σε ένα εκτενές σώμα ελληνικών κειμένων έχει ως εξής:

Α 11,15%
Ο 10,27%
Ι    9,16%
Ε   8,93%
Τ   8,31%
Σ   7,98% [Στη μελέτη γίνεται διάκριση ανάμεσα σε σ (4,54%) και ς (3,44%). Εγώ τα έχω ενοποιήσει.]
Ν   6,30%
Η   5,25%
Υ   4,52%
Ρ    4,23%
Π   4,03%
Κ   3,89%
Μ  3,32%
Λ   2,56%
Ω   2,26%
Δ   1,72%
Γ    1,44%
Χ   1,21%
Θ   1,17%
Φ   0,83%
Β   0,59%
Ξ   0,43%
Ζ   0,32%
Ψ   0,14%

Οι διαφορές ανάμεσα σε Ι και Ε είναι μικρές, γι’ αυτό άλλες μελέτες δίνουν το… χάλκινο μετάλλιο στο Ε αφήνοντας το Ι τέταρτο.

Εκτός όμως από τη συχνότητα των γραμμάτων του αλφαβήτου, ενδιαφέρον έχει και η συχνότητα των αρκτικών γραμμάτων των λέξεων. Ξέρουμε ότι σε ένα λεξικό ή σε μια εγκυκλοπαίδεια το γράμμα Α πιάνει πολλές σελίδες και εμπειρικά θα περιμέναμε να είναι το συχνότερο αρκτικό γράμμα. Επιβεβαιώνεται αυτή η προσδοκία μας;

Είναι εύκολο να επαληθεύσουμε την υπόθεσή μας ανοίγοντας ένα λεξικό και μετρώντας πόσες σελίδες αφιερώνονται στις λέξεις που αρχίζουν από Α, πόσες από Β κτλ. Ωστόσο, επιστημονικά σωστότερο είναι να πάρουμε υπόψη μας τον αριθμό των λημμάτων ανά αρκτικό γράμμα. Ευτυχώς, δεν θα χρειαστεί να καθίσουμε να μετρήσουμε ένα προς ένα τις χιλιάδες λήμματα που περιλαμβάνει ένα έντυπο λεξικό! Το Λεξικό της Κοινής Νεοελληνικής υπάρχει σε ηλεκτρονική μορφή στο Διαδίκτυο και είναι σχετικά εύκολο να καταμετρηθεί ο αριθμός των λημμάτων κάθε γράμματος.

Σύμφωνα λοιπόν με μια συζήτηση στο ιστολόγιο anamorfosis.net, ο αριθμός λημμάτων ανά αρκτικό γράμμα στο ΛΚΝ δίνεται στον πίνακα που ακολουθεί –για σύγκριση παραθέτω σε δεύτερη στήλη τη συχνότητα των γραμμάτων του αλφαβήτου, δηλ. τον πρώτο πίνακα που έβαλα και πιο πάνω.

(Να πω εδώ πέρα ότι πέρυσι σε σχόλιο ο φίλος μας ο ΣΠ είχε κάνει κι αυτός την ίδια αναζήτηση για τα αρκτικά γράμματα στο ΛΚΝ και είχε καταλήξει σε παραπλήσια, αλλά όχι ταυτόσημα, αποτελέσματα, πχ 8233 το Α, 5181 το Π, 4515 το Κ κτλ.)

Aριθμός λημμάτων ανά γράμμα στο ΛΚΝ Συχνότητα γραμμάτων ελληνικής γλώσσας
A 8315   (17,8%) Α 11,15%
Π 5187   (11,1%) Ο 10,27%
Κ 4527   (9,69%) Ι    9,16%
Ε 4248   (9,09%) Ε   8,93%
Σ 3940    (8,43%) Τ   8,31%
Μ 3023   (6,47%) Σ   7,98%
Δ 2132    (4,56%) Ν   6,30%
Τ 2064    (4,42%) Η   5,25%
Φ 1432    (3,07%) Υ   4,52%
Ο 1274    (2,73%) Ρ    4,23%
Γ 1269     (2,72%) Π   4,03%
Β 1138    (2,44%) Κ   3,89%
Χ 1121    (2,40%) Μ  3,32%
Λ 1089    (2,33%) Λ   2,56%
Ν  941     (2,01%) Ω   2,26%
Υ  903     (1,93%) Δ   1,72%
Ξ  805      (1,72%) Γ    1,44%
Ρ  720      (1,54%) Χ   1,21%
Ι   668      (1,43%) Θ   1,17%
Θ  572      (1,22%) Φ   0,83%
Ψ 437   (0,94%) Β   0,59%
Ζ  375   (0,80%) Ξ   0,43%
Η  354   (0,76%) Ζ   0,32%
Ω  177   (0,38%) Ψ   0,14%

Η σύγκριση των δύο πινάκων είναι ενδιαφέρουσα. Το Α είναι πρώτο και στους δύο πίνακες, αλλά στον πίνακα των λημμάτων δεύτερη και τρίτη θέση έχουν το Π και το Κ. Το Ο που είναι το δεύτερο συχνότερο γράμμα έχει υποχωρήσει στη 10η θέση ενώ στην 19η θέση έχει κατρακυλήσει το Ι, τρίτο συχνότερο: ενώ το Ο και το Ι είναι πανταχού παρόντα σε ένα κείμενο, σχετικά λίγες λέξεις αρχίζουν από τα γράμματα αυτά.

Αντίστροφα, το Δ που είναι μόλις το 16ο συχνότερο γράμμα ανεβαίνει στην 7η θέση στην κατάταξη των αρκτικών γραμμάτων –δεν είναι τόσο περίεργο αν σκεφτούμε πόσες σύνθετες λέξεις φτιάχνονται με την πρόθεση διά. Ο ίδιος λόγος συμβάλλει επίσης στην εκτίναξη των Π (παρά, προ, προς, περί) και Κ (κατά) στις πρώτες θέσεις των αρκτικών γραμμάτων. Όπως είπα, στο χτεσινό άρθρο μας αναφερθήκαμε σε αυτή την πληθώρα λέξεων που αρχίζουν από Π.

Αν αντί για λεξικό παίρναμε τηλεφωνικό κατάλογο, συχνότερο αρκτικό γράμμα δεν θα ήταν πια το Α, αλλά το Π με όλους τους Παπα-. Δυστυχώς, δεν μπορώ να δώσω περισσότερα στοιχεία γιατί δεν έχω πρόχειρο έντυπο τηλεφωνικό κατάλογο. Αν κάποιος έχει πρόχειρους τους δυο τόμους του τηλεφωνικού καταλόγου και φιλοτιμηθεί να μας κάνει έναν πίνακα, πόσες σελίδες πιάνει το κάθε γράμμα, κερδίζει σπαμακόπιτα.

Ας μείνουμε όμως στα λεξικά. Η πρώτη λέξη κάθε λεξικού είναι βεβαίως το λήμμα «α», είτε μόνο του είτε ως πρόθημα (π.χ. στερητικό α- και αν-) είτε ως τμήμα φράσεων (π.χ. «α καπέλα»). Το επόμενο λήμμα, μετά το α, στο Χρηστικό Λεξικό και στο Λεξικό της Κοινής Νεοελληνικής είναι το «αβαείο», ενώ ο Μπαμπινιώτης προτιμά τη γραφή «αββαείο» οπότε σε αυτόν το επόμενο πλήρες λήμμα είναι το «αβαθής». Το Λεξικό του Δημητράκου υποτίθεται ότι είναι όλης της ελληνικής, οπότε έχει και λήμματα της αρχαίας γλώσσας –όπως θα περιμένατε, το πρώτο πλήρες λήμμα μετά το «α» είναι το «αάατος», μια λέξη για την οποία έχουμε κάνει λόγο κατά καιρούς (επιγραμματικά εδώ).

Ως προς την τελευταία λέξη των λεξικών, το ΛΚΝ σταματάει στο λήμμα «ωχρόφαιος». Το Χρηστικό στο λήμμα «ωχρότητα», ενώ ο Μπαμπινιώτης ακολουθεί τον Δημητράκο και φτάνει μέχρι το λήμμα «ωώδης». Από το αβαείο στην ωχρότητα, από τον αάατο στον ωώδη, όλη η ελληνική γλώσσα σε δεκάδες χιλιάδες λήμματα!

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *