Практичне завдання - Автоматизація інформаційного пошуку в Google
Опис завдання
У сучасних умовах дослідження в соціології та інших науках все більше значення має ефективність пошуку першоджерел, особливо у цифровому форматі. Ручний пошук наукових статей та документів у форматі PDF може бути дуже часозатратним, особливо коли мова йде про великий обсяг даних. Тому актуальним є використання мов програмування, таких як Python, для автоматизації цього процесу. Дане завдання полягає в автоматизованому пошуку та завантаженні наукових статей у форматі PDF із використанням Google Custom Search API. Ви будете використовувати Python для пошуку і завантаження файлів. Такий підхід значно спрощує пошук релевантних джерел для проведення соціологічних досліджень, знижує ймовірність пропуску важливих документів, а також економить час дослідників.
Використання Python для пошуку першоджерел має кілька важливих переваг:
- Автоматизація процесу. Не потрібно вручну вводити запити і переглядати сторінки результатів — код виконає це за вас.
- Ефективність. Програма зберігає всі знайдені файли PDF та створює зведену таблицю з інформацією про знайдені документи.
- Масштабованість. Ви можете легко додавати нові ключові слова або змінювати параметри пошуку для отримання більшої кількості релевантних результатів.
Необхідні реквізити для роботи коду
Для успішної роботи коду вам знадобляться:
- Файл коду "search_pdf.py", доступний для завантаження у спільній папці Dropbox.
- Ключ API Google Custom Search, збережений у файлі "api.txt". Посилання на відео-інструкцію знаходяться у спільний папці дисципліни в Dropbox.
- Ідентифікатор пошукової системи (Engine ID), збережений у файлі "engine.txt", що також створюється під час налаштування API Google Custom Search.
- Файл із ключовими словами (keywords.txt), де кожне ключове слово для пошуку буде записане на новому рядку.
Всі результати роботи (виконання) коду (завантажені файли та файли з результатами пошуку) повинні бути збережені у спільній папці на Dropbox, доступ до якої потрібно отримати зазделегіть від викладача.
N.B.
Ключі для API та Engine ID мають зберігатися в окремих файлах, шлях до яких треба вказати (прописати) в коді. Отримання цих даних не передбачає отримання передплатної підписки.
Мінімальна кількість результатів по кожному слову - 50. Пам’ятайте, що Google обмежує кількість запитів на день у рамках безкоштовного тарифу (до 100 запитів). Якщо у вас 4 ключових слова, виконати завдання за один день не вдасться — його доведеться розділити на два дні. Якщо 6, то три і т.д.