Полный список стоп-слов

Раскрутка и продвижение сайта   1 апреля 2015  Автор статьи:  

Стоп-слова или шумовые слова не несут смысловой нагрузки для пользователя, а значит их выделение в общий перечень стоп-слов способно существенно сократить объем индексации для поисковиков.

Бессмысленные слова делятся на общие и зависимые

Общие слова, такие как предлоги, цифры, частицы, междометия, встречаются практически во всех документах, соответственно поиск по ним лишен смысла. Обычно общие слова исключаются из поискового запроса, если не поставить строгие рамки поиска.

Зависимые слова — слова, зависящие и формируемые относительно поисковой фразы. Понятие введено чтобы различать обычные слова и зависимые стоп-слова в запросе и исключать последние, сокращая и оптимизируя поиск. Разберем на примере.

Вводя запрос Булгаков Михаил Афанасьевич, предполагаем найти документы, содержащие:

Булгаков, Михаил, Афанасьевич
Булгаков, Михаил
Булгаков, Афанасьевич
Булгаков

И вовсе не хотим увидеть материалы, в которых есть только:

Михаил, Афанасьевич
Михаил
Афанасьевич

Получается шумовыми словами в запросе Булгаков Михаил Афанасьевич являются Михаил и Афанасьевич.

Перечень стоп-слов, примеры

Полный список стоп-слов — это миф. Никакого универсального списка шумовых слов не существует потому как поисковые системы постоянно обновляются, а вместе с ними и перечень слов без смысловой нагрузки. Кроме того, у каждого поисковика существует своя система выявления стоп-слов и их перечень.

Подробнее остановимся на группах шумовых слов, считающимися общими и неизменными в течение времени. Примеры стоп-слов:

  1. Цифры
  2. 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 — как простые, так и составные
    ноль, один, раз, два, три, четыре, пять, шесть, семь, восемь, девять
    нулевой, первый, второй, третий, четвертый, пятый, шестой, седьмой, восьмой, девятый, десятый
    В зависимости от тематики, поисковик все же может учитывать цифры.

  3. Специальные символы
  4. . , — _ = + / ! ” ; : % ? * ( )
    Возможны исключения, возникающие в результате использования той или иной поисковой системы с ее алгоритмом выявления бессмысленных слов в соответствии с заданной тематикой.

  5. Буквы
  6. а, б, в, г, д, е, ё, ж, з, и, й, к, л, м, н, о, п, р, с, т, у, ф, х, ц, ч, ш, щ, ъ, ы, ь, э, ю, я — как прописные, так и заглавные
    Отдельно стоящие буквы алфавита считаются шумовыми словами, потому как не несут в себе смысловой нагрузки.

  7. Слова частого употребления, предлоги, союзы, местоимения, причастия, частицы, междометия, суффиксы, вводные слова и конструкции, сокращения, клише и штампы
  8. Ниже перечисленные слова не имеют выраженной тематической принадлежности, а потому от них можно избавиться при ранжировании документов.

    • (предлоги) для, на, по, со, из, от, до, без, над, под, за, при, после, во
    • (частицы)не, же, то, бы, всего, итого, даже, да, нет
    • (союзы) или, но, дабы, затем, потом, коли, лишь только
    • (наречия) как, так, еще, тот, откуда, зачем, почему, значительно
    • (местоимения) он, мы, его, вы, вам, вас, ее, что, который/ая/ых/ое, их, все, они, я, весь, мне, меня, таким, весь, всех
    • (сокращения) кб, мб, дн, руб, ул, кв, дн, гг
    • (междометия) ой, ого, эх, браво, здравствуйте, спасибо, извините
    • (неопределенные) что-то, какой-то, где-то, как-то, зачем-то, из-за, дальше, ближе, раньше, позже, когда-то
    • (вводные) скажем, может, допустим, честно говоря, например, на самом деле, однако, вообще, в общем, вероятно
    • (обобщения и неточные определения) всего, почти, примерно, около, где-то, порядка
    • (усилители) очень, минимально, максимально, абсолютно, огромный, предельно, сильно, слабо, наиболее, наименьшее, самый
    • (оценочные) красивый, мягкий, удобный, дорогой, эффективный
    • (клише и штампы) масса ярких впечатлений, в лучших традициях, ударными темпами, трезвый взгляд, шаг за шагом, так или иначе, сплошь и рядом, направо и налево, туда и сюда, доверие клиентов, решать задачи бизнеса, расширить географию продаж, в настоящее время, в наши дни, в это столетие, в нашем веке, век высоких технологий, сегодня, сейчас
    • (слабые глаголы) является, есть, иметь, хотеть, содержаться, существует
    • (фразы с отглагольными существительными) осуществлять, оказывается
    • (фразы с модальным глаголом) можно продолжать, можно заказать
  9. Часто употребляемые слова на веб-ресурсах
  10. Интернет, без смс, авторизуйтесь, войдите, введите имя, сайт, закрыть окошко, вопросы, ожидайте ответа, прайс-лист, заказ, меню, на этой странице, форма внизу страницы, нажмите на кнопку, напишите письмо, кликните здесь, зарегистрируйтесь, перейти, закрыть, получить заказ, далее, следующий, имя, бесплатно, без пароля, без регистрации, без пароля

  11. Ненормативная лексика

[important]Что важно?
Старайтесь избегать большого содержания шумовых слов в статье, это может значительно снизить позиции сайта по продвигаемым в ней ключевым запросам. Контент, насыщенный стоп-словами уменьшает его значимость и становится водянистым. Воды в тексте должно содержаться менее 30% — соотношению шумовых слов к общему количеству слов в статье.[/important]

Где провести анализ текста на стоп-слова

Незаменимым сервисом-помощником для наборщиков текста может послужить сайт glvrd.ru. Вставьте анализируемый текст в «белый лист» и нажмите Enter. После проверки получите текст с подсвеченными словами. На них можно навести и прочитать справа совет, состоящий из:

  • причина подсветки (слабый глагол [существует], необъективная оценка [простые], паразит времени [сейчас] и т.д.)
  • совет на что исправить
  • хороший и плохой пример использования слова

Также на сайте advego.ru/text/seo, проводя семантический анализ текста, можно узнать список шумовых слов и количество их повторов в проверяемом тексте.

Теперь вы знаете что такое шумовые слова и примеры стоп-слов, которые следует использовать как можно реже в публикуемом тексте.


Как правильно подобрать ключевые слова?
Узнай как написать статью

Научиться программировать

  • на Delphi

  • на Java

  • на C++