Самое народное
Jul. 12th, 2006 02:34 am![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
10 словосочетаний,
которые используются в русском чаще всего
Новый год
Последний год
Последнее время
Последний раз
Последний день
Человек хочет
Стать большим
Хороший человек
Стать человеком
Хорошо знать
(я) методика: взят синопсис корпуса литературного русского языка отсюда, выделены самые кассовые слова (существительные, прилагательные, глаголы), сделано 300 запросов в Яндекс по их парам через этот автомат, результат обобщен.
Кстати, Новый год встречается в русском чаще, чем последние четыре члена этого списка, вместе взятые.
Что-то слово "последний" очень популярно, а? С чего бы?
которые используются в русском чаще всего
Новый год
Последний год
Последнее время
Последний раз
Последний день
Человек хочет
Стать большим
Хороший человек
Стать человеком
Хорошо знать
(я) методика: взят синопсис корпуса литературного русского языка отсюда, выделены самые кассовые слова (существительные, прилагательные, глаголы), сделано 300 запросов в Яндекс по их парам через этот автомат, результат обобщен.
Кстати, Новый год встречается в русском чаще, чем последние четыре члена этого списка, вместе взятые.
Что-то слово "последний" очень популярно, а? С чего бы?
no subject
Date: 2006-07-12 04:09 am (UTC)Самая частая пара слов - это debug build
(ладно, про access violation вежливло промолчим)
Итак,
...Средняя длина русского слова составляет 5.28 символа...
...Итак, был взят 1 000 000 слов из разных текстов, и проведён анализ...
Ну пусть на странице, по-минимуму, 2000 символов без пробелов. 2000/5.28 = 378.8 слов на странице. В средней книге 200 страниц. 200*378.8 = 75760.
1'000'000 / 75'760 = 13.19 книг.
13 книг! :) Ну и где доказательство, что это была репрезентативная выборка???
Интересно, какие же это были книги :)))
no subject
Date: 2006-07-12 05:14 am (UTC)no subject
Date: 2006-07-12 05:24 am (UTC)no subject
Date: 2006-07-12 06:47 am (UTC)"Вам череп не жмет?" :)
no subject
Date: 2006-07-12 06:51 am (UTC)ЗЫ нужно тебе диск отдать, все забываю :)
no subject
Date: 2006-07-12 07:05 am (UTC)no subject
Date: 2006-07-12 07:11 am (UTC)no subject
Date: 2006-07-12 07:42 am (UTC)Из знаний статистики помню один очень важный элемент - результаты никуда не годны без доказательства статистической значимости результатов. В данном случае этот шаг (доказательство статистической значимости) является основным (по трудоёмкости).
К тому же - ты либо бери весь язык (а тогда за что убирать разговорный язык, жаргон, интернет-терминологию, математику?), либо чётко оговори, какую часть языка ты берёшь. Напр., "литературный начала и середины 20-го века, жизненные истории и короткие популярные очерки о политике"
no subject
Date: 2006-07-12 09:02 am (UTC)no subject
Date: 2006-07-12 09:37 am (UTC)про корпус русского языка читай ruscorpora.ru
плюс синопсис, который я скачал, не содержит, скажем, слова хуй -- которое точно входит в первые 5000.
я вообще этим всем заморочался в рамках создания машины, которая оценивает эмоциональную окраску текста. кое-какие наработки у меня есть, теперь к ним прибавилось немножко :)