Розширений пошук і мову запитів. Мова запитів пошукової системи
Мова запитів - це штучно створена мова програмування, що використовується для того, щоб робити запити в базах даних і інформаційних системах.
В цілому, такі способи запитів можна класифікувати в залежності від того, служать вони для бази даних або для пошуку інформації. Різниця в тому, що запити до подібних сервісів відбуваються для отримання фактичних відповідей на поставлені питання, в той час як пошукова система намагається знайти документи, що містять відомості, що відносяться до цікавить користувача області.
Бази даних
Мови запитів по базах даних включають в себе наступні приклади:
- QL - об`єктно-орієнтована, відноситься до реляційних баз даних- наступник Datalog.
- Контекстний (CQL) - формальна мова подання запитів для інформаційно-пошукових систем (таких, як веб-індекси або бібліографічні каталоги).
- CQLF (CODYASYL) - для CODASYL-TYPE баз даних.
- Концепт-орієнтована мова запитів (COQL) - використовується у відповідних моделях (com). Він заснований на принципах моделювання даних construpt і використовує такі операції, як проекція і де-проекція багатовимірного аналізу, аналітичні операції і висновки.
- DMX - використовується до моделей інтелектуального аналізу даних.
- Datalog - це мова запитів до дедуктивним баз даних.
- Gellish English - це мова, яка може використовуватися для запитів в бази даних Gellish English і дозволяє вести діалоги (запити і відповіді), а також служить для інформаційного моделювання знань.
- HTSQL - переводить http-запити на SQL.
- ISBL - використовується для PRTV (однієї з перших реляційних систем управління базами даних).
- LDAP - це протокол для запитів і служб каталогів, що працює по протоколу TCP / IP.
- MDX - необхідний для баз даних OLAP.
Пошукові системи
Мова пошукових запитів, в свою чергу, спрямований на знаходження даних в пошукових системах. Він відрізняється тим, що часто запити містять звичайний текст або гіпертекст з додатковим синтаксисом (наприклад, «і» / «або»). Він значно відрізняється від стандартних подібних мов, які регулюються строгими правилами синтаксису команд або містять позиційні параметри.
Як класифікуються пошукові запити?
Існує три широких категорії, які охоплюють більшість пошукових запитів: інформаційна, навігаційна і транзакційна. Хоча ця класифікація не була закріплена теоретично, емпірично вона підтверджена наявністю фактичних запитів у пошукових системах.
Інформаційні запити - це ті, які охоплюють широкі теми (наприклад, який-небудь певне місто чи модель вантажівок), щодо яких може бути отримано тисячі релевантних результатів.
Навігаційні - це запити, які шукають один сайт або веб-сторінку на певну тему (наприклад, YouTube).
Відео: пошук в інтернеті - мова запитів Яндекс Google SHPIZ.RU
Транзакційні - відображають намір користувача виконати певну дію, наприклад, зробити покупку автомобіля або забронювати квиток.
Пошукові системи часто підтримують четвертий тип запиту, який використовується набагато рідше. Це так звані запити підключення, що містять звіт про зв`язності проіндексованого веб-графіка (кількість посилань на певний URL, або скільки сторінок проіндексовано з певного домену).
Як відбувається пошук інформації?
Більшість пошукових ресурсів не розкриває свої журнали пошуку, тому інформація про те, що користувачі шукають в Мережі, дуже важко знайти. Проте перші наукові дослідження з`явилися в 1998 році. Пізніше було проведено повторне дослідження в 2001 році, яке проаналізувало запити, які відображаються як високорелевантние. Також стало зрозуміло, як використовується пошуковими роботами мову запитів.
Стали відомі цікаві характеристики, що стосуються веб-пошуку:
Середня довжина пошукового запиту становила 2,4 слів.
Відео: 015. Мова пошукових запитів як природна мова - Андрій Плахов
- Близько половини користувачів направляли один запит, а трохи менше третини користувачів робили три або більше унікальних запитів один за одним.
- Майже половина користувачів переглядала тільки перші одну-дві сторінки отриманих результатів.
- Менше 5% користувачів використовують розширені можливості пошуку (наприклад, вибір будь-яких певних категорій або пошуку в пошуку).
Особливості користувальницьких дій
Дослідження також показало, що 19% запитів містили географічний термін (наприклад, назви, поштові індекси, географічні об`єкти і т. Д.). Ще варто відзначити, що крім коротких запитів (тобто з декількома умовами), часто були присутні і передбачувані схеми, за якими користувачі міняли свої пошукові фрази.
Також було встановлено, що 33% запитів від одного користувача повторюються, і в 87% випадків юзер буде натискати на той же результат. Це говорить про те, що багато користувачів використовують повторні запити, щоб переглянути або заново знайти інформацію.
Частотні розподілу запитів
Крім того, фахівцями було підтверджено, що частотні розподіли запитів відповідають статечному закону. Тобто невелика частина ключових слів спостерігається в найбільшому списку запитів (наприклад, більше 100 млн), і вони найбільш часто використовуються. Решта ж фрази в рамках тих же тематик застосовуються рідше і більш індивідуально. Це явище отримало назву принципу Парето (Або «правило 80-20»), і воно дозволило пошуковикам використовувати такі методи оптимізації, як індексування або розбиття бази даних, кешування і попереджувальну завантаження, а також дало можливість вдосконалювати мову запитів пошукової системи.
В останні роки було виявлено, що середня довжина запитів неухильно зростає з плином часу. Так, середньостатистичний запит на англійській мові стало довшим. У зв`язку з цим компанія Google запровадила оновлення під назвою «Колібрі» (в серпні 2013 року), який здатний обробляти довгі пошукові фрази з непротокольні, «розмовною» мовою запиту (на зразок «де найближча кав`ярня?»).
Для більш довгих запитів використовується їх обробка - їх розбивають на фрази, сформульовані стандартною мовою, і виводяться відповіді на різні частини окремо.
структуровані запити
Пошукові системи, що підтримують логічні операції і синтаксис, використовують більш розширені мови запиту. Користувач, який шукає документи, що охоплюють кілька тем або граней, може описувати кожну з них по логічної характеристиці слова. За своєю суттю, логічна мова запитів являє собою сукупність певних фраз і розділових знаків.
Що таке розширений пошук?
Мова запитів «Яндекса» і «Гугла» здатний здійснювати більш вузько направлений пошук при дотриманні певних умов. Розширений пошук може шукати по частині назви сторінки або префіксу заголовка, а також в певних категоріях і переліках імен. Він також може обмежити пошук сторінок, що містять певні слова в назві або знаходяться в певних тематичних групах. При правильному використанні мови запитів він може обробляти параметри на порядок складніші, ніж поверхневі результати видачі більшості пошукових систем, в тому числі по заданих користувачем словами зі змінним закінченням і схожим написанням. При поданні результатів розширеного пошуку буде відображена посилання на відповідні розділи сторінки.
Також це можливість пошуку всіх сторінок, що містять певну фразу, в той час як при стандартному запиті пошукові системи не можуть зупинитися на будь-якій сторінці обговорення. У багатьох випадках мова запитів може привести на будь-яку сторінку, розташовану в тегах noindex.
У деяких випадках правильно сформований запит дозволяє знайти інформацію, що містить ряд спеціальних символів і букв інших алфавітів (китайські ієрогліфи наприклад).
Як читаються символи мови запитів?
Верхній і нижній регістр, а також деякі діакритичні знаки (умляути і акценти) не враховуються в пошуках. Наприклад, пошук за ключовим словом Citroen не знайде сторінки, що містять слово «Цітроён». Але деякі лігатури відповідають окремим буквах. Наприклад, пошук за словом «аероскобінг» легко знайде сторінки, що містять «Ерескебінг» (АЕ = ).
Багато хто не алфавітно-цифрові символи постійно ігноруються. Наприклад, неможливо знайти інформацію за запитом, який містить рядок | L | (Буква між двома вертикальними смугами), незважаючи на те що цей символ використовується в деяких шаблонах конвертації. У результатах будуть тільки дані з «ЛТ». Деякі символи і фрази обробляються по-різному: запит «кредит (Фінанси)» відобразить статті зі словами «кредит» і «фінанси», ігноруючи дужки, навіть якщо і існує стаття з точною назвою «кредит (Фінанси)».
Існує безліч функцій, які можна використовувати з застосуванням мови запитів.
синтаксис
Мова запитів «Яндекса» і «Гугла» може використовувати деякі знаки пунктуації для уточнення пошуку. Як приклад можна привести фігурні дужки - {{пошук}}. Фраза, укладена в них, буде піддаватися пошуку цілком, без змін.
Фраза в подвійних лапках дозволяє визначитися з об`єктом пошуку. Наприклад, слово в лапках буде розпізнаватися як використовується в переносному сенсі або як вигаданий персонаж, без лапок - як інформація більш документального характеру.
Крім того, всі основні пошукові системи підтримують символ «-» для логічного «не», а також і / або. Виняток - терміни, які не можуть бути розділені за допомогою префікса дефісом або тире.
Неточне відповідність пошукової фрази відзначається символом ~. Наприклад, якщо ви не пам`ятаєте точне формулювання терміна або назви, ви можете вказати її в рядку пошуку з зазначеним символом, і зможете отримати результати, що мають максимальну схожість.
Параметри спеціалізованого пошуку
Існують і такі параметри пошуку, як intitle, і incategory. Вони являють собою фільтри, які відображаються через двокрапку, у вигляді «фільтр: рядок запиту». Рядок запиту може містити шуканий термін або фразу, або ж частина або повна назва сторінки.
Функція «intitle: запит» віддає пріоритет в пошуковій видачі за назвою, але також показує і звичайні результати за змістом заголовка. Кілька таких фільтрів можуть бути використані одночасно. Як же використовувати цю можливість?
Запит виду «intitle: назва аеропорту» видасть всі статті, що містять в заголовку назву аеропорту. Якщо ж сформулювати його як «парковка intitle: назва аеропорту», то ви отримаєте статті з назвою аеропорту в заголовку і зі згадуванням парковки в тексті.
Відео: Мова запитів і оператори
Пошук по фільтру «incategory: Категорія» працює на основі принципу історичної видачі статей, що належать до певної групи або списку сторінок. Наприклад, пошуковий запит по типу «Храми incategory: Історія» видаватиме результати на тему історії храмів. Цю функцію також можна використовувати як розширену, задаючи різні параметри.