Name	Name	Last commit message	Last commit date
Latest commit History 5 Commits
.dvc	.dvc
attachments	attachments
data	data
docs	docs
models	models
notebooks	notebooks
references	references
reports	reports
src	src
telegram_bot	telegram_bot
.dvcignore	.dvcignore
.gitignore	.gitignore
Makefile	Makefile
README.md	README.md
dvc_guide.md	dvc_guide.md
file_router.txt	file_router.txt
poetry.lock	poetry.lock
pyproject.toml	pyproject.toml
requirements.txt	requirements.txt
setup.cfg	setup.cfg

Doc2Ru

Этот сервис переводит любой документ с английского языка на русский

ML System Design Doc (Translator)

1. Цели и предпосылки

1.1 Зачем идем в разработку продукта?

Бизнес-цели:

Повышение скорости и качества анализа документов на иностранном языке.
Обеспечение безопасности NDA данных.
Автоматизация процесса перевода презентаций для сотрудников компании.
Доступность в Российском регионе.
Снижение издержек на перевод.

Проблематика:

Большинство технических презентаций на английском языке.
Временные и финансовые затраты на перевод.
Неточная передача технических терминов.
Сложности сохранения форматирования (таблицы, графики).

Преимущества использования ИИ:

Быстрота перевода.
Обучение модели на специфических данных.
Снижение затрат при больших объемах.
Простая доступность.

Критерии успеха:

Уменьшение времени перевода.
Сохранение форматирования документа.
Перевод всех текстовых блоков.

1.2 Бизнес-требования и ограничения

Требования:

Разработка интерфейса для перевода (Telegram Bot).
Качественный перевод текста.
Преобразование формата doc → doc с сохранением оформления.
Защита данных.

Ограничения:

Использование GPU Nvidia 3090.
Краткие сроки на разработку.

Итерации проекта:

PoC: Прототипирование функционала в Jupyter Notebooks.
- Извлечение текста.
- Перевод с помощью LLM.
- Сохранение форматирования.
MVP: Тестирование в контролируемой среде.
- Расширение поддержки элементов.
- Внедрение Telegram Bot.
- Улучшение алгоритмов перевода.

2. Методология

2.1 Постановка задачи

Автоматизация перевода документов с сохранением точности, структуры и оформления.

2.2 Блок-схема решения

Подготовка данных: извлечение текста.
Выбор модели: настройка LLM.
Оптимизация: улучшение точности и скорости.
Тестирование: проверка на реальных данных.
Закрытие технического долга.
Интеграция интерфейса.

2.3 Этапы:

Извлечение данных (тексты, графики, таблицы).
Перевод текста с сохранением структуры.
Формирование документа.
Сбор обратной связи.
Формирование отчета.

3. Подготовка MVP

Оценка эффективности:

Скорость: перевод 1 слайда за 10–15 секунд.
Покрытие: поддержка 95% типов фреймов.
Шрифты: сохранение 70% оригинальных.
Интерфейс: работа через Telegram Bot.
Точность: BLEU/ROUGE ≥ 80%.
Обработка: успешная обработка 95% слайдов.
Стабильность: корректная работа при разных нагрузках.

4. Архитектура

Презентация проекта с подробной архитектурой доступна по ссылке
Сервер: Nvidia 3090 GPU, 24 GB RAM.
Запись с демонстрацией работы сервиса доступна по ссылке

Project Organization

├── LICENSE <- Open-source license if one is chosen
├── Makefile <- Makefile with convenience commands like `make data` or `make train`
├── README.md <- The top-level README for developers using this project.
├── data
│ ├── external <- Data from third party sources.
│ ├── interim <- Intermediate data that has been transformed.
│ ├── processed <- The final, canonical data sets for modeling.
│ └── raw <- The original, immutable data dump.
│
├── docs <- A default mkdocs project; see www.mkdocs.org for details
│
├── models <- Trained and serialized models, model predictions, or model summaries
│
├── notebooks <- Jupyter notebooks. Naming convention is a number (for ordering),
│ the creator's initials, and a short `-` delimited description, e.g.
│ `1.0-jqp-initial-data-exploration`.
│
├── pyproject.toml <- Project configuration file with package metadata for 
│ doc2ru and configuration for tools like black
│
├── references <- Data dictionaries, manuals, and all other explanatory materials.
│
├── reports <- Generated analysis as HTML, PDF, LaTeX, etc.
│ └── figures <- Generated graphics and figures to be used in reporting
│
├── requirements.txt <- The requirements file for reproducing the analysis environment, e.g.
│ generated with `pip freeze > requirements.txt`
│
├── setup.cfg <- Configuration file for flake8
│
└── doc2ru <- Source code for use in this project.
 │
 ├── __init__.py <- Makes doc2ru a Python module
 │
 ├── config.py <- Store useful variables and configuration
 │
 ├── dataset.py <- Scripts to download or generate data
 │
 ├── features.py <- Code to create features for modeling
 │
 ├── modeling 
 │ ├── __init__.py 
 │ ├── predict.py <- Code to run model inference with trained models 
 │ └── train.py <- Code to train models
 │
 └── plots.py <- Code to create visualizations

Folders and files

Latest commit

History

Repository files navigation

Doc2Ru

ML System Design Doc (Translator)

1. Цели и предпосылки

1.1 Зачем идем в разработку продукта?

Бизнес-цели:

Проблематика:

Преимущества использования ИИ:

Критерии успеха:

1.2 Бизнес-требования и ограничения

Требования:

Ограничения:

Итерации проекта:

2. Методология

2.1 Постановка задачи

2.2 Блок-схема решения

2.3 Этапы:

3. Подготовка MVP

Оценка эффективности:

4. Архитектура

Project Organization

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages