Самое народное
Jul. 12th, 2006 02:34 am![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
10 словосочетаний,
которые используются в русском чаще всего
Новый год
Последний год
Последнее время
Последний раз
Последний день
Человек хочет
Стать большим
Хороший человек
Стать человеком
Хорошо знать
(я) методика: взят синопсис корпуса литературного русского языка отсюда, выделены самые кассовые слова (существительные, прилагательные, глаголы), сделано 300 запросов в Яндекс по их парам через этот автомат, результат обобщен.
Кстати, Новый год встречается в русском чаще, чем последние четыре члена этого списка, вместе взятые.
Что-то слово "последний" очень популярно, а? С чего бы?
которые используются в русском чаще всего
Новый год
Последний год
Последнее время
Последний раз
Последний день
Человек хочет
Стать большим
Хороший человек
Стать человеком
Хорошо знать
(я) методика: взят синопсис корпуса литературного русского языка отсюда, выделены самые кассовые слова (существительные, прилагательные, глаголы), сделано 300 запросов в Яндекс по их парам через этот автомат, результат обобщен.
Кстати, Новый год встречается в русском чаще, чем последние четыре члена этого списка, вместе взятые.
Что-то слово "последний" очень популярно, а? С чего бы?
no subject
Date: 2006-07-12 04:09 am (UTC)Самая частая пара слов - это debug build
(ладно, про access violation вежливло промолчим)
Итак,
...Средняя длина русского слова составляет 5.28 символа...
...Итак, был взят 1 000 000 слов из разных текстов, и проведён анализ...
Ну пусть на странице, по-минимуму, 2000 символов без пробелов. 2000/5.28 = 378.8 слов на странице. В средней книге 200 страниц. 200*378.8 = 75760.
1'000'000 / 75'760 = 13.19 книг.
13 книг! :) Ну и где доказательство, что это была репрезентативная выборка???
Интересно, какие же это были книги :)))
no subject
Date: 2006-07-12 05:14 am (UTC)no subject
Date: 2006-07-12 05:24 am (UTC)no subject
Date: 2006-07-12 06:47 am (UTC)"Вам череп не жмет?" :)
no subject
Date: 2006-07-12 06:51 am (UTC)ЗЫ нужно тебе диск отдать, все забываю :)
no subject
Date: 2006-07-12 07:05 am (UTC)no subject
Date: 2006-07-12 07:11 am (UTC)no subject
Date: 2006-07-12 07:42 am (UTC)Из знаний статистики помню один очень важный элемент - результаты никуда не годны без доказательства статистической значимости результатов. В данном случае этот шаг (доказательство статистической значимости) является основным (по трудоёмкости).
К тому же - ты либо бери весь язык (а тогда за что убирать разговорный язык, жаргон, интернет-терминологию, математику?), либо чётко оговори, какую часть языка ты берёшь. Напр., "литературный начала и середины 20-го века, жизненные истории и короткие популярные очерки о политике"
no subject
Date: 2006-07-12 09:02 am (UTC)no subject
Date: 2006-07-12 09:37 am (UTC)про корпус русского языка читай ruscorpora.ru
плюс синопсис, который я скачал, не содержит, скажем, слова хуй -- которое точно входит в первые 5000.
я вообще этим всем заморочался в рамках создания машины, которая оценивает эмоциональную окраску текста. кое-какие наработки у меня есть, теперь к ним прибавилось немножко :)
Вот тебе отличный контрпример
Date: 2006-07-12 04:27 am (UTC)Результат поиска: страниц — 9 138 881, сайтов — не менее 5 689, в каталоге — 8
Запросов за месяц: новый — 411 696, год — 475 838. Купить эти слова.
"Забыли пароль" (http://www.yandex.ru/yandsearch?text=%22%C7%E0%E1%FB%EB%E8+%EF%E0%F0%EE%EB%FC%22&stype=www)
Результат поиска: страниц — 56 104 095, сайтов — не менее 73 418
Запросов за месяц: забыли — 20 689, пароль — 194 264. Купить эти слова.
К тому же этот контрпример ещё и показывает, что самая популярная пара слов совсем не обязательно состоит из самых популярных отдельных слов.
Re: Вот тебе отличный контрпример
Date: 2006-07-12 07:04 am (UTC)Слово "хуй" тут тоже не встречается :)
no subject
Date: 2006-07-12 04:32 am (UTC)Самое первое частое существительное из их списка - "человек".
Человек (http://www.yandex.ru/yandsearch?text=%F7%E5%EB%EE%E2%E5%EA&stype=www)
Результат поиска: страниц — 136 107 040, сайтов — не менее 60 884, в каталоге — 498
Запросов за месяц: человек — 255 634. Купить это слово.
Форум (http://www.yandex.ru/yandsearch?text=%F4%EE%F0%F3%EC&stype=www)
Результат поиска: страниц — 243 977 245, сайтов — не менее 27 109, в каталоге — 6 577
Запросов за месяц: форум — 709 687. Купить это слово.
no subject
Date: 2006-07-12 07:08 am (UTC)я внятный синопсис уже с полмесяца ищу -- как раз для того, чтобы отфильтровать перекосы нтернет-фразеологии.
вот, нашел теперь.