fastbatchai/docstring-generation

Folders and files

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
.github		.github
autoDoc		autoDoc
data		data
figures		figures
lessons		lessons
tests		tests
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
LICENSE		LICENSE
README.md		README.md
pyproject.toml		pyproject.toml
uv.lock		uv.lock

Repository files navigation

🚀 AutoDoc Course

MIT License Python Course

Learn how to fine-tune language models to automatically generate high-quality docstrings across multiple programming languages.

🎯 What You'll Learn

Multi-task Fine-tuning: Train models to generate docstrings across multiple programming languages simultaneously
LLM Fine-tuning Techniques: Instruction fine-tuning and RL fine-tuning using GRPO
Hands-on Experience: Work with different fine-tuning libraries (PEFT, TRL, Unsloth)
Cloud Infrastructure: Deploy scalable training with Modal
Performance Evaluation: Compare models using automated metrics and evaluation frameworks

🚀 Quick Start

# Clone and install
git clone https://github.com/fastbatchai/docstring-generation.git
cd docstring-generation
uv pip install -e .
# Setup Modal
modal setup
# Run training
modal run -i -m autoDoc.train --training-type sft --use-unsloth

📖 Course Lessons

Lesson 1: Introduction to LLM Fine-tuning - Fine-tuning fundamentals
Lesson 2: Data Preparation - Multi-language dataset preprocessing and prompt engineering
Lesson 3: Instruction Fine-tuning - SFT implementation with Alpaca format, Modal infrastructure, and monitoring
Lesson 4: RL Fine-tuning - GRPO implementation, reward functions, and preference learning
Lesson 5: Evaluation and Comparison - Automated metrics and model comparison (Coming Soon)

📊 Results

Fine-tuning Performance: CodeGemma vs CodeGemma+LoRA

Language	CodeGemma	CodeGemma+LoRA	Improvement
Python	0.47	0.52	+11%
Java	0.57	0.55	-4%
JavaScript	0.43	0.48	+12%
Go	0.49	0.54	+10%
PHP	0.42	0.63	+50%
Ruby	0.52	0.60	+15%

NOTE: These are preliminary results based on training with a small subset (1K samples for each programming language).

Instruction finetuning results

Model Comparison Across Different Base Models
LoRA Configuration Impact on Performance

More results are available in Lesson 5: Evaluation and Comparison

🤝 Community

Discussions: GitHub Discussions
Issues: Report bugs
Newsletter: Subscribe for updates

📄 License

MIT License - see LICENSE file for details.

⭐ Star this repository if you found it helpful!

About

Finetune language models to automatically generate documentation for different programming language (Python, Java, go, etc)

Releases

No releases published

Packages

No packages published

Contributors 2

Languages

Python 100.0%

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

License

Uh oh!

fastbatchai/docstring-generation

Folders and files

Latest commit

History

Repository files navigation

🚀 AutoDoc Course

🎯 What You'll Learn

🚀 Quick Start

📖 Course Lessons

📊 Results

Fine-tuning Performance: CodeGemma vs CodeGemma+LoRA

Instruction finetuning results

🤝 Community

📄 License

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages

Contributors 2

Uh oh!

Languages

License

fastbatchai/docstring-generation

Folders and files

Latest commit

History

Repository files navigation

🚀 AutoDoc Course

🎯 What You'll Learn

🚀 Quick Start

📖 Course Lessons

📊 Results

Fine-tuning Performance: CodeGemma vs CodeGemma+LoRA

Instruction finetuning results

🤝 Community

📄 License

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages