Блог Вована

Не останавливайся на достигнутом

Запрос для парсинга много текста

Давеча потребовалось мне получить RSS -ленту записей из блогов. Тематика не важна, главное чтобы постов было побольше. На помощь пришли исследования лингвистов и поиск по блогам Яндекса.

Запрос состоит из слов, которые находятся в самом начале списка из 5000 наиболее частотных русских слов (исключая некоторые короткие слова, например, предлоги). Это значит, что в подавляющем большинстве текстов содержится хотя бы одно из указанных слов, и, следовательно, данный запрос покроет большое количество текстов.

(быть|весь|они|сказать|этот|который|мочь|человек|один|еще|бы|такой|
только|себя|свое|какой|когда|уже|вот|кто|говорить|год|знать|мой|время|
рука|нет|самый|стать|большой|даже|другой|наш|свой|где|дело|есть|сам)

Готовая RSS- лента:

Яндекс немного тупит от такого громоздкого запроса, но результат выдаёт, ведь он всё-таки солидный поисковик.

Несколько способов определения позиций сайта в поисковиках

donation bar

Комментарии

Здорово!

Единственный минус. Не ясно как спарсить весь объем. Тк Яндекс отдает только 1000 :(

Ну тогда нужно разбить этот запрос на несколько. Или другими способами уточнять запрос.

У меня сейчас прогон по каталогам дает максимум ТИЦ 10 и PR 1-2

Комментировать

Использование активных шаблонов (code templates) избавляет от постоянного ввода одного и того же кода. Выявляйте такие часто повторяющиеся участки кода и создавайте для них шаблоны.

Источник:
«Продуктивный программист» Нил Форд