среда, апреля 27, 2005

Немного статистики

Моя цель - составить что-то вроде "Словаря читателя любовного романа", отбирая для него слова по статистическому признаку, т.е. слова, наиболее часто встречающиеся в этих самых любовных романах (с использованием несколько тематических списков, о которых говорилось ранее). Для статистического отбора взяты 21 роман разных авторов, из разных под-жанров. (Принцип отбора - то, что было под рукой)
Вот их список:
Linda Howard - Dying to Please.txt
Amanda Quick - Ravished.txt
Amanda Quick - Affair.txt
Amanda Quick - Rendezvouz.txt
Jayne Ann Krentz - The Ties that Bind.txt
Jayne Ann Krentz - Soft Focus.txt
Jayne Ann Krentz - Eye Of Beholder.txt
Jayne Ann Krentz - Deep Waters.txt
Teresa Medeiros - [Lennox 2] - Touch of Enchantment.txt
Teresa Medeiros - [Lennox 1] - Breath of Magic.txt
Suzanne Brockmann - Troubleshooters 06 - Gone Too Far.txt
Suzanne Brockmann - TeamTen 02 - Forever Blue (v.1).txt
Suzanne Brockmann - TeamTen 01 - Prince Joe (v.1).txt
Mary Balogh - [Bedwyn 04] - Slightly Tempted.txt
Mary Balogh - [Bedwyn Series 01] - Slightly Married.txt
Mary Balogh - [Bedwyn Series 06] - Slightly Dangerous_v2.txt
Nora Roberts - The Villa.txt
Nora Roberts - MacGregors 2 - Alain~Grant.txt
Nora Roberts - MacGregors 1 - Serena Caine.txt
Linda Howard - Sarahs Child (v1)[html].txt
Linda Howard - After The Night.txt
Linda Howard - Dying to Please.txt

Теперь немного об используемых терминах - проще всего объяснить на примере
Token - любой набор букв, ограниченный пробелами или знаками препинания
Type (тип слова, я буду говорить просто "слово") - например, "привет, привет, пока" - это три tokens, но только два слова ("привет" и "пока")
Family (семейство) - это разные формы одного слова, например слова "you, your, yours, yourself, yourselves" - это одно семейство

Итак, статистика
В выбранных текстах имеем
2241538 tokens
39381 слов (types)
2516 семейств (их на самом деле несколько больше)

Вас такая статистика пугает? Бояться не стоит.
18578 (почти половина!!!) слов появляются только в каком-нибудь одном тексте. Велика вероятность, что это имена собственные, названия, опечатки, сокращения и т.п.
1166 (всего лишь) слов появляются во всех текстах. Если говорить о семействах, то это 940 семейств. Скорее всего, это и есть слова, несущие максимальную смысловую нагрузку.
5262 слова (2077 семейств) появляются в половине текстов. Так что получается, что словаря на пару тысяч словарных статей должно хватить, чтобы спокойно читать наши любимые любовные романы.
Теперь дело за малым - этот самый словарь составить.

Комментариев нет: