Большой Воронежский Форум
Русский язык>Статистика слов в русском языке.
Avanturistka 13:15 05.06.2007
Знаете ли вы, что ...
* Средняя длина русского слова составляет 5.28 символа.
* Средняя длина предложения в русском языке составляет 10.38 слов.

Был взят 1 000 000 слов из разных текстов, и проведён анализ. В презультате были отобраны 5 000 самых часто встречающихся слов. К примеру, "почему" встречается чаще, чем "потому". Если бы иностранец знал эти 5000 слов, он бы смог понять более 80% текста на русском языке. Вот список самых употребляемых прилагательных в русском языке (тут не только прилагательные):
маленький
больший
большой
огромный
высокий
великий
небольшой
глубокий
крупный
мелкий
низкий
большинство
глубоко
высоко
громадный
низко
крошечный
маленько
мелко
крупнейший
крупно
низкорослый
глубокомысленный
высокомерный
высокопоставленный
высокомерно
высокопревосходительство
высокомерие
высокоблагородие
крупнокалиберный
большеголовый
высокопарный
большущий
высокогорный
мелководье
большеглазый
глубокоуважаемый
мелкота
высокоразвитый
глубоководный
мелковатый [Ответ]
лесоруб 13:18 05.06.2007

Сообщение от Avanturistka:
высокопревосходительство

Ну да...За какой же год статисктика? [Ответ]
Avanturistka 13:23 05.06.2007
лесоруб, 2003 г. [Ответ]
LesNick Saul 17:51 05.06.2007
хотелось бы узнать, по какому принципу формировалась выборка текстов для статистики [Ответ]
Avanturistka 21:09 05.06.2007
LesNick Saul,

Сообщение от :
Был взят 1 000 000 слов из разных текстов, и проведён анализ.

[Ответ]
LesNick Saul 21:17 05.06.2007
Avanturistka, я это прочитал. Мне интересен состав этих

Сообщение от Avanturistka:
разных текстов

беллетристика, документы, письма и т.д. Ну и количественное соотношение по типам этих текстов [Ответ]
Avanturistka 21:23 05.06.2007
LesNick Saul, не в курсе. [Ответ]
LesNick Saul 21:31 05.06.2007
Avanturistka, жаль [Ответ]
Avanturistka 21:35 05.06.2007
LesNick Saul, зачем вам? [Ответ]
LesNick Saul 21:40 05.06.2007
Avanturistka, для расширения кругозора. Просто, используя статистику в другой предметной области, убедился, что от формирования выборки очень сильно зависит конечный результат стат. обработки [Ответ]
Avanturistka 21:44 05.06.2007
LesNick Saul, удачи в поисках.) [Ответ]
DeeP 21:47 05.06.2007

Сообщение от Avanturistka:
лесоруб, 2003 г.

Света, будь лингвистом. И не лезь в анализ. Читала б ты классиков, знала бы, что одна из трех вариантов лжи - статистика. Тем паче за 2003 год. [Ответ]
Avanturistka 22:15 05.06.2007
DeeP, иногда статистика оказывается права. [Ответ]
DeeP 22:23 05.06.2007
Avanturistka, после вот этих выборок применяют различные методы (а далее и методики) анализа. Такое поверхностное вываливание копипастов - вода водой.
и вопрос: каких текстов? если брать пушкина-лермонтова и иже с ними, то да. "высокопревосходительство" встречается огого как часто, а если ты возьмешь Духлесс Минаева и подобные фолианты - получишь другой результат. [Ответ]
LesNick Saul 22:26 05.06.2007

Сообщение от Avanturistka:
иногда статистика оказывается права.

Чтобы в этом убедиться, надо знать правила организации выборки. Поэтому сабж и вызывает скепсис... [Ответ]
Avanturistka 22:38 05.06.2007
LesNick Saul, ну пусть так и будет.) [Ответ]
Вверх