Соціальна інформатика: Класифікація ІПС та їх математичні моделі

ІПС (інформаційно-пошукова система) - це система, що забезпечує пошук і відбір необхідних даних у спеціальній базі з описами джерел інформації (індексі) на основі інформаційно-пошукової мови і відповідних правил пошуку.

Типова схема інформаційно-пошукової системи.

Client (клієнт) на цій схемі - це програма перегляду конкретного інформаційного ресурсу.Найбільш популярні сьогодні мультипротокольні програми типу Netscape Navigator.Така програма забезпечує перегляд документів WWW, Gopher, Wais, FTP-архівів, поштових списків розсилки і груп новин Usenet.У свою чергу всі ці інформаційні ресурси є об'єктом пошуку інформаційно-пошукової системи.

User interface (призначений для користувача інтерфейс) - це не просто програма перегляду, в разі інформаційно-пошукової системи під цим словосполученням розуміють також спосіб спілкування користувача з пошуковим апаратом: системою формування запитів і переглядів результатів пошуку.

Search engine (пошукова машина) - служить для трансляції запиту на інформаційно-пошуковому мовою (ІПМ), у формальний запит системи, пошуку посилань на інформаційні ресурси Мережі і видачі результатів цього пошуку користувачеві.

Index database (індекс бази даних) - індекс, який є основним масивом даних ІПС і служить для пошуку адреси інформаційного ресурсу.Архітектура індексу влаштована таким чином, щоб пошук відбувався максимально швидко і при цьому можна було б оцінити цінність кожного з знайдених інформаційних ресурсів мережі.

Queries (запити користувача) - зберігаються в його (користувача) особистій базі даних.На налагодження кожного запиту йде досить багато часу, і тому надзвичайно важливо запам'ятовувати запити, на які система дає хороші відповіді.

Index robot (робот-індексіровщік) - служить для сканування Internet та обслуговування бази даних індексу в актуальному стані.Ця програма є основним джерелом інформації про стан інформаційних ресурсів мережі.

WWW sites - це весь Internet або точніше - інформаційні ресурси, перегляд яких забезпечується програмами перегляду.

Математична модель – це спрощений опис реальності за допомогою математичних понять, в результаті якого отримується формула, яка дозволяє вважати документи знайденими та ранжувати їх.

Основні типи математичних моделей

Булева математична модель Булева (boolean, булевая, двійкова) математична модель – це модель пошуку, що спирається на операції перетину, об'єднання і вирахування множин.

Іншими словами можемо сказати так, знайшли відповідне слово – документ можна вважати знайденим, інакше – не знайденим.

Таким чином дана математична модель не підходить для пошукових систем, коли з’являється робота з великими числами (з великою кількістю документів).

Векторна математична модель Векторна модель (англ. vector space model) – це представлення колекції документів векторами з одного спільного для всієї колекції векторного простору.
Векторна модель є основою для вирішення багатьох завдань інформаційного пошуку, таких як: пошук документа за запитом, класифікація документів, кластеризація документів.

Документ у векторній моделі розглядається як невпорядкований набір термів. Термами в інформаційному пошуку називають слова, з яких складається текст.

Різними засобами можна визначити вагу терма в документі – "важливість" слова для ідентифікації даного тексту. Наприклад, можна просто підрахувати кількість вживань терма в документі, так звану частоту терма, – чим частіше слово зустрічається в документі, тим більша у нього буде вага. Якщо терм не зустрічається в документі, то його вага в цьому документі дорівнює нулю.
Всі терми, що зустрічаються в документах певної колекції, можна впорядкувати. Після цього для деякого документу можна виписати по порядку вагу всіх термів, включаючи ті, яких немає в цьому документі, вийде вектор, який і буде представленням даного документа у векторному просторі. Розмірність цього вектора, як і розмірність простору, дорівнює кількості різних термів у всій колекції, і є однаковою для всіх документів.

Більш формально можна записати

dj = (w1j, w2j, …, wnj)

де dj – векторне представлення j-го документа, wij – вага i-го терма в j-м документі, n – загальна кількість різних термів у всіх документах колекції.

Маючи в своєму розпорядженні такі дані для всіх документів, можна, наприклад, знаходити відстань між точками простору і тим самим вирішувати проблему подібності документів – чим ближче розташовані точки, тим більш схожі відповідні документи. У разі пошуку документа за запитом, запит теж представляється як вектор того ж простору, таким чином можна обчислювати відповідність документів запиту.

Для повного опису векторної моделі для пошукової системи необхідно вказати, яким саме чином буде розраховуватись вага терма в документі. Існує декілька стандартних способів вирахування функції зважування.

Методи зважування термів
• булева вага – дорівнює 1, якщо терм зустрічається в документі і 0 – у противному разі;
• tf (term frequency, частота терма) – вага визначається як функція від кількості входжень терма в документ;
• tf-idf (term frequency - inverse document frequency, частота терма –обернена частота документа) – вага визначається як добуток функції від кількості входжень терма в документ та функції від величини оберненої кількості документів колекції, в яких зустрічається цей терм.
TF * IDF,
де TF – кількість входжень терма в документ, IDF – рідкість терма в колекції.
Зазначена модель використовується всіма пошуковими системами.

Імовірнісна математична модель
Підбір видачі за допомогою асесорів – це самостійне визначення людино-релевантності сторінок, порівнюючи з заздалегідь визначеними еталонними документами.

Недолік цієї моделі полягає в тому, що зазвичай дуже важко підібрати певну кількість еталонних документів на кожне існуюче слово та слово сполучення.

Критерії якісної роботи математичної моделі

• точність – доля релевантних документів в результаті видачі;
• щільність – доля знайдених релевантних документів в загальній кількості релевантних документів колекції;
• актуальність – відповідність посилань в результаті релевантних документів Інтернету.

Отже ми вже знаємо, що окрім автоматичного оцінювання роботи пошукової системи, результат видачі ще оцінюють і люди – асесори. Вони використовують чітко описані правила та порівнюють з еталонними документами.

Соціальна інформатика

пʼятниця, 25 квітня 2014 р.

Класифікація ІПС та їх математичні моделі

Основні типи математичних моделей

Немає коментарів:

Дописати коментар

пʼятниця, 25 квітня 2014 р.

Класифікація ІПС та їх математичні моделі

Основні типи математичних моделей

Немає коментарів:

Дописати коментар

пʼятниця, 25 квітня 2014 р.