Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - Критерії індексування web-сторінок

Оскільки інформації в Інтернет є надзвичайно багато і вона постійно змінюється, кожний пошуковий робот створює свою локальну базу даних, в якій і відбувається пошук. Від обсягів цієї бази і частоти її оновлення залежить факт знаходження в ній потрібної інформації - відповідно, чим більша і динамічніша база, тим більша ймовірність успішного пошуку.

Для порівняння, наведемо кількість сторінок, знайдених в результаті запиту "+а" у базах даних популярних пошукових систем, станом на 12.01.11 (табл.11.2). Запит було сформовано при дослідженнях кількості сторінок інтернет-спільнотою і відображає найбільш вживані символи (запит проводився при англійській розкладці клавіатури).

Критерії індексування web-сторінок

Робот не може автоматично визначити, чи потрібно включати до своєї бази (індексувати) певний документ з серверу чи ні. Web-сервери можуть містити документи, що використовуються локально, наприклад, список внутрішньої бібліотеки, тимчасові файли. Практично роботи зберігають майже все, що вони знаходять. Причому, навіть якщо робот визначив, що цю сторінку не потрібно включати у базу даних, він вже отримав її з Інтернет.

Компанія Robot Community спробувала змінити цю ситуацію, створивши спеціальний стандарт "A standard for robot exclusion". Він описує використання структурованого текстового файлу для визначення частин серверу, що не потрібні роботу для перегляду. Цю можливість можна також використовувати, аби повідомити робота про так звані "чорні дірки", коли заглиблюючись у систему вкладених сторінок робот не зможе з них повернутися. В такий спосіб роботам можна давати окремі інструкції, якщо кожен з них спеціалізується по окремій галузі.

Таблиця 11.2. Результат запиту до пошукових систем

результат запиту до пошукових систем

■S Порядок аналізу сайту

Визначення напрямку обходу сайту для аналізу представляє собою дилему: оскільки більшість сайтів організовано ієрархічно, обхід в ширину (з вершини до заданої глибини) дає більший набір документів, ніж обхід в глибину (по вкладених посиланнях). Проте пошук в глибину швидше знайде сторінки користувачів, в яких є посилання на інші сторінки - тому швидше знайдуться нові сайти для подальшого обходу.

Проаналізований документ підлягає індексуванню. Перші роботи просто зберігали назви документів та тексти посилань, але сучасні роботи використовують більш складні механізми, і як правило індексують весь зміст документу.

Незважаючи на продуктивний пошук сучасними пошуковими системами, методи, що використовуються роботами, є менш ефективними за індексування сторінки вручну. Мова HTML дає можливість розробнику вузла додати спеціальну інформацію до документів, яка спрощує пошук. Правильно підібраною інформацією для пошукових систем можна також підвищити рейтинг (трафік) своєї сторінки - оскільки робот буде видавати її в числі перших результатів пошуку.

Альтернативи для пошуку ресурсів

Існує альтернативний підхід до пошуку локальних ресурсів, коли сумарна індексна інформація про сервер вже зібрана на ньому. Вона може бути створена вручну, а може автоматично з заголовків, або засобом мови HTML. Зібрана інформація додається до пошукової бази даних за допомогою Інтернет-протоколів.

У цього способу є свої переваги. Якість індексу, створеного людьми, поєднується з ефективністю автоматичного оновлення. Цілісність інформації у цього способу вища, ніж у звичайних індексів, оскільки підтримується виключно локальна індексна інформація. Не потребує високої пропускної здатності мережі.

До недоліків можна віднести створення додаткових проблем провайдеру, у разі зміни індексної інформації для основних документів (що відбувається не часто), коли весь індексний файл необхідно повністю переписати, навіть якщо змінився лише один запис.

Схожі статті

Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - Великі обсяги динамічного матеріалу

Оскільки інформації в Інтернет є надзвичайно багато і вона постійно змінюється, кожний пошуковий робот створює свою локальну базу даних, в якій і...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 11.3. Призначення пошукових роботів

Коли обсяги Інтернет почали перевищувати декілька десятків сайтів, виникла задача пошуку потрібних даних без перегляду всієї наявної інформації. Почалися...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 7.2. Електронний документообіг

Інформація, що циркулює в системі управління, об'єднується в групи за змістом та фіксується на конкретному матеріальному носії. Таке об'єднання носить...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 1.4. Життєвий цикл даних. Збір і систематизація даних

Дані представляють собою спосіб представлення, збереження та елементарних операцій обробки інформації. Дані - це основа інформації. Поняття "дані" -...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 5. Створення сховищ даних. Технології OLAP та Data Mining

5.1. Структура сховища даних та оптимізація його обсягів Методи інтелектуального аналізу інформації часто розглядають як природний розвиток концепції...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 3.1. Етапи розвитку інформаційних технологій

3.1. Етапи розвитку інформаційних технологій Інформаційні технології посідають чільне місце в нашому житті, тому це поняття є багатофункціональним та...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 10.2. Технології спільного використання ресурсів

Технології, що реалізують модель процесу з розподіленими ресурсами, дають змогу всім користувачам мережі спільно використовувати дані та пристрої:...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 3. Інформаційні технології: властивості, вимоги, цілі

3.1. Етапи розвитку інформаційних технологій Інформаційні технології посідають чільне місце в нашому житті, тому це поняття є багатофункціональним та...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 5.1. Структура сховища даних та оптимізація його обсягів

5.1. Структура сховища даних та оптимізація його обсягів Методи інтелектуального аналізу інформації часто розглядають як природний розвиток концепції...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 1.3. Життєвий цикл об'єктів технології

Життєвий цикл (ЖЦ) фіксує найбільш істотні, характерні для певного об'єкту стани, визначає їх основні характеристики та значення в даних станах, а також...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 3.5. Інформаційна технологія автоматизації процесу аналізу інформації з використанням програмного забезпечення

Практика використання інформаційних технологій для моделювання та автоматизації підтримки прийняття рішень в управлінні соціально-економічними процесами...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 3.3. Декомпозиція цілей інформаційної технології

Основною метою систем чи підсистем, що розробляються, є необхідність отримання бажаного результату в межах деякого інтервалу часу. В інформаційних...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 2.5. Призначення і структура класифікаторів

Опис класифікаційних угруповань, кодових позначень та найменувань об'єктів міститься в документі, який називається класифікатором. Класифікатор -...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - Корпоративна інформаційна система R/3

Технології з розподіленими базами даних використовуються в корпоративних інформаційних системах, до складу яких можуть входити засоби для документованого...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - Корпоративна інформаційна система "Галактика"

Технології з розподіленими базами даних використовуються в корпоративних інформаційних системах, до складу яких можуть входити засоби для документованого...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 7.4. Корпоративні інформаційні системи

Технології з розподіленими базами даних використовуються в корпоративних інформаційних системах, до складу яких можуть входити засоби для документованого...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 7.3. ERP-системи та їх особливості

Під терміном ERP (Enterprise Resource Planning) розуміють спеціалізоване програмне забезпечення, яке виконує функції автоматизації певних напрямів...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 2.4. Кодування об'єктів класифікації

Кодування представляє собою процес присвоєння коду об'єкту класифікації. Кодування забезпечує унікальну ідентифікацію об'єктів, яка в сукупності з...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 6.6. Технології створення машинної та позамашинної інформаційної бази

Інформаційна база (ІБ) представляє собою сукупність впорядкованої інформації, що використовується об'єктом. Вона є основою інформаційної системи...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 6.5. Автоматизовані інформаційні системи для підприємств та організацій

Комплексна автоматизація інформаційних потоків підприємства, організації, відомства, галузі вимагає створення єдиного інформаційного простору для...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 6.4. Експертні системи

Експертною системою (EC) називають систему підтримки прийняття рішень, яка містить знання з певної вузької предметної області, а також може пропонувати...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 6.3. Класифікація інформаційних систем

Різноманітність сфер і форм застосування сучасних інформаційних технологій породжує різноманітність способів їх класифікації. За масштабністю...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 6.2. Основні етапи розвитку інформаційних систем

Історія створення і розвитку інформаційних систем тісно пов'язана з автоматизацією діяльності підприємств та організацій, розвитком моделей їх...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 10.6. Особливості взаємодії комп'ютерів у обчислювальній мережі клієнт-серверної архітектури

Для забезпечення ефективного використання ресурсів мережі Інтернет, захисту інформації, визначення і розмежування прав доступу до різних ресурсів ІС на...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 10.4. Призначення міжмережних екранів

В даний час питанням безпеки даних у розподілених комп'ютерних системах приділяється значна увага. Розроблено ряд засобів для забезпечення інформаційної...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 5.2. Технологія аналітичної обробки даних в реальному часі OLAP

OLAP (On-Line Analytical Processing) є ключовим компонентом організації сховищ даних. Ця технологія заснована на побудові і візуалізації багатовимірних...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 10.1. Комп'ютерні мережі. Види мереж

10.1. Комп'ютерні мережі. Види мереж На початку створення комп'ютерні мережі призначались та використовувались винятково як середовище передачі файлів і...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 10. Інформаційні технології комп'ютерних мереж

10.1. Комп'ютерні мережі. Види мереж На початку створення комп'ютерні мережі призначались та використовувались винятково як середовище передачі файлів і...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 2.2. Структура і властивості економічної інформації

Структурування інформації пов'язане з необхідністю її зберігання, обробки чи передачі. Структуру економічної інформації визначає її будова, відокремлення...
Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - 1. Технологія: поняття, основні властивості та процеси. Інформація, дані, знання як об'єкти технології

1.1. Визначення поняття технології Словник іншомовних слів визначає технологію як сукупність способів переробки матеріалів, виготовлення виробів і...

Інформаційні технології та моделювання бізнес-процесів - Томашевський О. М. - Критерії індексування web-сторінок

Предыдущая | Следующая