Практичне завдання - Автоматизація інформаційного пошуку в Google

Опис завдання

У сучасних умовах дослідження в соціології та інших науках все більше значення має ефективність пошуку першоджерел, особливо у цифровому форматі. Ручний пошук наукових статей та документів у форматі PDF може бути дуже часозатратним, особливо коли мова йде про великий обсяг даних. Тому актуальним є використання мов програмування, таких як Python, для автоматизації цього процесу. Дане завдання полягає в автоматизованому пошуку та завантаженні наукових статей у форматі PDF із використанням Google Custom Search API. Ви будете використовувати Python для пошуку і завантаження файлів. Такий підхід значно спрощує пошук релевантних джерел для проведення соціологічних досліджень, знижує ймовірність пропуску важливих документів, а також економить час дослідників.

Використання Python для пошуку першоджерел має кілька важливих переваг:

  1. Автоматизація процесу. Не потрібно вручну вводити запити і переглядати сторінки результатів — код виконає це за вас.
  2. Ефективність. Програма зберігає всі знайдені файли PDF та створює зведену таблицю з інформацією про знайдені документи.
  3. Масштабованість. Ви можете легко додавати нові ключові слова або змінювати параметри пошуку для отримання більшої кількості релевантних результатів.

Необхідні реквізити для роботи коду

Для успішної роботи коду вам знадобляться:

  • Файл коду "search_pdf.py", доступний для завантаження у спільній папці Dropbox.
  • Ключ API Google Custom Search, збережений у файлі "api.txt". Посилання на відео-інструкцію знаходяться у спільний папці дисципліни в Dropbox.
  • Ідентифікатор пошукової системи (Engine ID), збережений у файлі "engine.txt", що також створюється під час налаштування API Google Custom Search.
  • Файл із ключовими словами (keywords.txt), де кожне ключове слово для пошуку буде записане на новому рядку.

Всі результати роботи (виконання) коду (завантажені файли та файли з результатами пошуку) повинні бути збережені у спільній папці на Dropbox, доступ до якої потрібно отримати зазделегіть від викладача.

N.B.

Ключі для API та Engine ID мають зберігатися в окремих файлах, шлях до яких треба вказати (прописати) в коді. Отримання цих даних не передбачає отримання передплатної підписки.

Мінімальна кількість результатів по кожному слову - 50. Пам’ятайте, що Google обмежує кількість запитів на день у рамках безкоштовного тарифу (до 100 запитів). Якщо у вас 4 ключових слова, виконати завдання за один день не вдасться — його доведеться розділити на два дні. Якщо 6, то три і т.д.