Загрузка данных


# Оптимальный состав команды: 5 человек

## Распределение по ролям

### 1. Backend-разработчик / Архитектор системы
**Компетенции:**
- Python (FastAPI/Flask)
- Проектирование REST API
- Работа с базами данных (PostgreSQL, Redis)
- Опыт с очередями задач (Celery)
- Docker, базовый DevOps

**Зона ответственности:**
- Архитектура системы и API
- Сервис сбора и хранения публикаций
- Планировщик рассылок
- Интеграция компонентов

---

### 2. ML/NLP-инженер
**Компетенции:**
- NLP: работа с текстами, эмбеддинги, классификация
- LLM API (OpenAI, Claude, open-source модели)
- Prompt engineering
- Python, PyTorch/Transformers

**Зона ответственности:**
- Суммаризация статей
- Классификация по тематикам/тегам
- Персонализация (матчинг статей с профилями)
- Генерация кода по описаниям из статей

---

### 3. Data Engineer / Парсинг-специалист
**Компетенции:**
- Web scraping (Scrapy, BeautifulSoup, Selenium)
- Работа с API источников (arXiv, Semantic Scholar, RSS)
- ETL-пайплайны
- Обработка и очистка данных

**Зона ответственности:**
- Парсеры для научных источников (arXiv, PapersWithCode, Habr, Medium)
- Извлечение метаданных и полных текстов
- Пайплайн обновления базы публикаций
- Обработка PDF

---

### 4. Frontend-разработчик
**Компетенции:**
- React/Vue.js
- Базовый UI/UX дизайн
- Интеграция с REST API
- Адаптивная вёрстка

**Зона ответственности:**
- Веб-интерфейс управления рассылками
- Интерфейс предпросмотра и редактирования дайджестов
- Управление профилями подписчиков
- Настройка тематик и периодичности

---

### 5. Fullstack-разработчик / QA
**Компетенции:**
- Python + базовый frontend
- Тестирование (pytest, интеграционные тесты)
- Работа с email-сервисами (SMTP, шаблоны)
- Документирование

**Зона ответственности:**
- Сервис email-рассылок и шаблоны дайджестов
- Написание тестов, контроль качества
- Интеграция frontend-backend
- Документация и демо

---

## Почему именно 5 человек?

| Задача | Трудоёмкость | Исполнитель |
|--------|--------------|-------------|
| Парсинг источников | Высокая | Data Engineer |
| ML-пайплайн (суммаризация, классификация) | Высокая | ML-инженер |
| Backend + API | Высокая | Backend-разработчик |
| Frontend | Средняя | Frontend-разработчик |
| Интеграция, рассылки, тесты | Средняя | Fullstack/QA |

**4 человека** — возможно, но потребует совмещения ролей (парсинг + backend или frontend + тесты), что рискованно для 12 недель.

**6+ человек** — избыточно, возникнут накладные расходы на координацию.