Реальные пацаны 45 серия встреча с Лерой




Реальные пацаны 44 серия



Интерны 51 серия




 


Реальные пацаны 42 серия



Реальные пацаны 40 серия



Интерны Серия №40,
Ребрендинг Черноус и падение Лобанова



Размещен: 21 сентября 2010

Реальные пацаны 39 серия



Реальные пацаны 38 серия



Реальные пацаны 37 серия



Реальные пацаны 36 серия



Реальные пацаны 35 серия



Вы знаете, как проверить исходящие ссылки со своего сайта или блога? - Не торопитесь с ответом... Прежде всего, зачем это нужно знать? Часто исходящие ссылки запрятаны в шаблонах и плагинах для блогов. Представьте: допустим, Ваш проект о поэзии, - что даст исходящая ссылка на сайт о холодильниках? - Понятно, что ничего хорошего, - даже возможна пессимизация поисковыми системами за нетематические линки. Или Вы, например, продаете ссылки, - такая вот лишняя ссылка, опять же - обуза (если она не копирайтная - с этим осторожнее )... По-этому лишние исходящие ссылки, особенно нетематические, нужно либо запрещать к индексации, либо попросту убирать. Но как их определить, если они, к примеру, запрятаны? Вот об этом-то и хотелось рассказать. Есть такой замечательный сервис, помогающий найти все исходящие с любой выбранной Вами страницы ссылки (пусть Вас не вводит в заблуждение слово "морд" на рисунке, - доступны для анализа не только главные, но и внутренние страницы) и, более того, обнаружить индексируются ли они поисковой системой Яндекс. Большое спасибо, думаю ваши советы мне пригодятся. Игорь > > Очень долго ищется запрос состоящий например из 50-100 слов > > (при морфологическом анализаторе). > Такие запросы априори будут выполняться долго. > Разверните деятельность анализатора в другую сторону - пусть он не > продуцирует словоформы, а редуцирует все к основной словоформе > (индексация должна проводиться посредством того же анализатора). А можно об этом поподробнее.Заранее благодарен. Игорь о теперь понял спасибо :-) а использую я phpmorphy как анализатор. Игорь Вот в чем еще проблема мне как в гугле надо выводить кусок текста точно такой же как он представлен на сайте, поэтому инфу в индексе я храню в том же виде. Из за этого при получении всех словоформ (например 20 штук) я их еще все привожу к верхнему регистру и первую букву делаю заглавной. В итоге получается уже не 20 слов а 60.Если я буду хранить в индексе текст со словами в основной словоформе то потом не смогу его восстановить. Думаю может при переноси индекса не в файл а в БД скорость должна увеличиться, но времени счас мало. Alexander Veremyev Игорь wrote: > Вот в чем еще проблема мне как в гугле надо выводить кусок текста > точно такой же как он представлен на сайте, поэтому инфу в индексе я > храню в том же виде. Из за этого при получении всех словоформ > (например 20 штук) я их еще все привожу к верхнему регистру и первую > букву делаю заглавной. В итоге получается уже не 20 слов а 60.Если я > буду хранить в индексе текст со словами в основной словоформе то потом > не смогу его восстановить. Стандартное решение - заводить два поля. Первое - индексироемое, но не хранимое - 'Zend_Search_Lucene_Field::UnStored(...)'; и второе - хранимое, но не индексируемое - 'Zend_Search_Lucene_Field::UnIndexed(...)'. В сумме будут занимать столько же, сколько одно хранимое и индексируемое. > Думаю может при переноси индекса не в файл а в БД скорость должна > увеличиться, но времени счас мало. Вполне возможно. Надо пробовать. С уважением, Александр Веремьев. Игорь Получается так: Текс в его первозданном виде я храню в поле UnIndexed а текст представленный только с основными словоформами в UnStored а как их потом объединить и использовать(при получении поискового запроса) маленький пример если можно. "Вы можете индексировать большие поля данных для поиска с помощью UnStored и извлекать их из реляционной БД, используя отдельные поля как идентификаторы." С БД понятно а как без нее? Надо еще какие то поля доп. создавать или как? Не понятно что то... может у меня уже башка к концу дня не варит... Leonid Schleicher > "Вы можете индексировать большие поля данных для поиска с помощью > UnStored и извлекать их из реляционной БД, используя отдельные поля > как идентификаторы." С БД понятно а как без нее? Надо еще какие то > поля доп. создавать или как? Не понятно что то... может у меня уже > башка к концу дня не варит... Ну вот я делаю так: сам контент странички (включая форматирование и прочую красоту) я храню в базе. параллельно в индекс Zend_search кладу id документа (по которому я могу вытащить документ из базы и собственно индексируемые слова (unstored, обработанные стеммером). При поиске выбираю ID-ы, а описания дергаю из базы. В принципе, тексты для отображения в результатах поиска можно также хранить в zend_search в отдельном unIndexed поле, чтобы базу не дергать при форматировании результата. Почему оно unIndexed - чтобы не мусорить индекс лишними уже словами и не портить релевантность. Игорь C БД мне понятно, но пока такой возможности нет я не пойму другое. При создании индекса я делаю "Первое - индексироемое, но не хранимое - 'Zend_Search_Lucene_Field::UnStored(...)'; и второе - хранимое, но не индексируемое - 'Zend_Search_Lucene_Field::UnIndexed(...)'. " При поиске я могу указать по какому полю искать я ищу по UnStored он выдает результат а как я потом достану данные в БД то хранится ID документа а тут как? Игорь Leonid Schleicher > При поиске я могу указать по какому полю искать я ищу по UnStored он > выдает результат а как я потом достану данные в БД то хранится ID > документа а тут как? Ты ищешь по indexed полям. То есть по тем, которые индексируются (там есть табличка такая в мануале). А достанешь ты то, что сам в этот индекс положишь... Неужели не понятно? Только достать то, что не хранится, то не сможешь... Игорь "Ну вот я делаю так: сам контент странички (включая форматирование и прочую красоту) я храню в базе. параллельно в индекс Zend_search кладу id документа (по которому я могу вытащить документ из базы и собственно индексируемые слова (unstored, обработанные стеммером). При поиске выбираю ID-ы, а описания дергаю из базы. " Хотелось бы узнать какова производительность в БД.Хотя если посудить то при использовании БД можно не использовать Зенд. Так как в БД есть полнотекстовый поиск, индексы можно составлять выражения и т.д. в 5 Мускуле куча наворотов. Дмитрий Николаев В MySql нельзя измнить алгоритм ранжирования - у Lucene здесь преимущество. С другой стороны скорость обработки. Интереснее узнать примеры с количеством индексов, занимаемого места и реальной скоростью работы On 18 июл, 14:53, Игорь wrote: Leonid Schleicher > Интереснее узнать примеры с количеством индексов, занимаемого места и > реальной скоростью работы Есть один проект - новостной сайт. Там очень много материалов (архив за 5 лет, нужно было организовать поиск. Ну и посещаемость хорошая, до 50 параллельных визитеров. Отказался от Zend_Search потому что: 1. отнимает много памяти при поиске по такому индексу (тестовые 20 тыщ документов - индекс около 3мб без хранимых полей), при открытии его зендсерчем mem_get_usage дает 20 метров (прирост с 2-3 без поиска) то есть только зендсерч с индексом отбирает 17 метров памяти. 2. медленный поиск (на тестовом хостинге - страница с результатами ZS генерируется 2 сек, MySQL fulltext - 100 мс) 3. медленное индексирование новых материалов. 4. тогда не думал еще о том, чтобы повесить оптимизацию на крон с другими лимитами на использование ресурсов, текущих 30 сек и 32 метра памяти не хватало на оптимизацию индекса. Выбрал в итоге MySQL. Но там есть один нюанс - параметр ft_min_word вроде называется - есть ограничение на минимальную длину слова. по умолчанию - 4. То есть, слова типа "Бомбардировщик б-52" не найти. Не проблема, когда сервер MySQL выделенный, а в случае shared провайдер не пошел на уступки. Да, индекс в MySQL (таблица) занимает гораздо больший объем (хранит индексируемые материалы) размер индекса сопоставим с размерами исходных текстов. В индексе хранятся также уже обработанные стеммером слова. При улучшении качества хостинга пересмотрю свое отношение к вопросу. Скорее всего, что большинство пользователей ПК сталкивались с проблемой поиска нужного документа среди огромного массива файлов, папок и прочей информации, которая хранится на дисках компьютера. Конечно, после непродолжительных поисков файл получалось отыскать, но драгоценное время уже не вернуть. При этом чем больше документов на диске, тем сложнее и дольше длятся поиски. Что же говорить о том бесконечно огромном количестве электронной информации, которой обладает глобальная сеть?! На поиски нужных данных в Интернете, которые хранятся на серверах и рабочих станциях, ушли бы годы, и сам процесс можно было бы охарактеризовать как поиск иголки в стоге сена. Поэтому чтобы процедура поиска в сети не была столь утомительной, разработаны специальные поисковые системы, которые и находят нужные документы по запросам пользователей. Известно, что в сети вся информация содержится в различных форматах и стандартах. Кроме HTML-файлов имеются неструктурированные данные (электронные таблицы, сообщения электронной почты, разные текстовые документы и т.п.). Чтобы информация, занесённая на сайт, была найдена поисковой машиной, следует позаботиться о её индексации. Индексирование в поисковых системах – это добавление запланированных документов роботом поисковика в общую базу данных, которая в дальнейшем используется для поиска информации на уже проиндексированных ресурсах. Помощь поисковым системам в нахождении документов сайта - важный этап раскрутки сайта Чтобы сайт был проиндексирован поисковой машиной, документ с информацией должен содержать статьи с ключевыми словами, ссылки, изображения и тому подобное. Документы должны быть определённых форматов. К примеру, Яndex.Server может поддерживать следующие форматы: html, xml, rtf, pdf, doc, mp3 и пр. При общении в локальной сети информация индексируемых документов может быть получена при использовании баз данных, например MySQL и MS SQL. Очень часто сайты с идеальным контентом могут быть некорректно проиндексированы, поэтому часто бывают труднодоступны для просмотра пользователям сети. Такое недоразумение случается по причине недочётов разработчиков ресурса. Самыми типичными ошибками, затрудняющими индексацию и ранжирование сайта, являются документы, формат которых не индексируется. Ограничения вводятся на java скрипты, flash файлы, фреймы, редиректы и т.п. Как же происходит индексирование документов? Существует два варианта: либо поисковая машина сама находит сайт по ссылкам, либо веб-мастер отмечает ресурс на странице регистрации поисковой системы. В первом случае индексация может затянуться на несколько дней, во втором – следует уделить регистрации несколько минут. Чтобы поисковая машина корректно проиндексировала сайт, следует учесть некоторые нюансы: - Информация должна быть представлена в текстовом документе, так как текст в графическом изображении поисковик не сможет «увидеть». Исключение: индексируется текст в атрибуте ALT тэга IMG. - Каждый документ должен быть чётко и ясно озаглавлен (тэг TITTLE), иметь в наличии ключевые слова (метатэг NAME="keywords") и обладать небольшим, но осмысленным описанием (метатэг NAME="description"). - Рекомендуется произвести вручную регистрацию сайта в поисковой системе, а затем контролировать его дальнейшее индексирование. Стоит заметить, что база данных, которая создаётся роботами поисковых систем, постоянно совершенствуется и автоматически обновляется, при этом до сих пор нет никакой возможности проконтролировать изменения. Поэтому каждый раз при раскрутке сайтов следует требовательней подходить к процессу составления индексируемых документов. Ответить: