Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

⚖📝 HelBERT, um modelo de linguagem pré treinado com textos de Editais de Licitações.

License

Notifications You must be signed in to change notification settings

vic37get/HelBERTModel

Folders and files

NameName
Last commit message
Last commit date

Latest commit

History

29 Commits

Repository files navigation

HelBERT 👨‍⚖️

⚖📝 HelBERT é um repositório completo para pré-treinamento, fine-tuning, avaliação e análise de modelos de linguagem baseados em BERT, com foco em textos de Editais de Licitações e domínio jurídico-administrativo brasileiro.


Sumário


Sobre o Projeto

Este repositório contém todo o pipeline para:

  • Pré-treinamento de modelos BERT no domínio de licitações públicas.
  • Fine-tuning para tarefas específicas (classificação, NER, etc).
  • Avaliação e análise de métricas dos modelos.
  • Scripts utilitários para limpeza, preparação de dados e visualização de resultados.

O HelBERT foi treinado do zero utilizando grandes volumes de editais e documentos públicos, visando melhorar o desempenho em tarefas jurídicas e administrativas.


Estrutura do Repositório

A pasta principal de código é Codigos/, organizada da seguinte forma:

  • BaseDeDados/: Scripts de limpeza, preparação e manipulação de datasets.
  • CalculoMetricasHelBERTs/: Cálculo e análise de métricas dos modelos.
  • Distilled/: Técnicas de destilação de modelos.
  • FineTuning/: Scripts para fine-tuning e avaliação em diferentes tarefas (Classificação, NER, etc).
  • Graficos/: Geração de gráficos e visualizações.
  • LSG/: Métodos para long sequence modeling.
  • PreTreinamento/: Scripts para pré-treinamento do HelBERT.
  • utils/: Funções utilitárias para manipulação de arquivos, métricas, etc.

Além disso, o repositório contém exemplos de datasets, modelos treinados e resultados de experimentos.


Pré-treinamento do HelBERT

O pré-treinamento do HelBERT é realizado a partir de grandes corpora de editais, utilizando scripts em Codigos/PreTreinamento/. O processo inclui:

  • Limpeza e normalização dos textos (cleaner_pretreinamento.py)
  • Tokenização e preparação dos dados
  • Treinamento do modelo BERT com Masked Language Modeling

Fine-tuning e Avaliação

O fine-tuning é realizado para diferentes tarefas, como:

Scripts de avaliação e cálculo de métricas estão disponíveis em CalculoMetricasHelBERTs/ e FineTuning/*/.


Como Executar

  1. Instale as dependências:
    pip install -r requirements.txt
    
  2. Prepare os dados:

Utilize os scripts em Codigos/BaseDeDados/ para limpeza e preparação dos datasets.

  1. Pré-treine o modelo:

Execute os scripts em Codigos/PreTreinamento/ para treinar o HelBERT do zero.

  1. Fine-tuning e avaliação:

Utilize os scripts em Codigos/FineTuning/ para treinar e avaliar o modelo em tarefas específicas.

  1. Visualize os resultados:

Gere gráficos e relatórios com os notebooks em Codigos/Graficos/ e Codigos/CalculoMetricasHelBERTs/.


Resultados e Métricas

Os resultados dos experimentos, métricas de avaliação e comparações com outros modelos estão disponíveis em:

Codigos/CalculoMetricasHelBERTs/metricas_modelos.json

Notebooks de análise em Codigos/CalculoMetricasHelBERTs/


HelBERT no Hugging Face 🤗

O modelo HelBERT-base está disponível publicamente no Hugging Face Hub:

Hugging Face

Como utilizar o HelBERT-base

Você pode importar e utilizar o modelo diretamente em seu código Python com a biblioteca transformers:

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("vic35get/HelBERT-base")
model = AutoModel.from_pretrained("vic35get/HelBERT-base")
# Exemplo de uso
inputs = tokenizer("Exemplo de texto jurídico para o HelBERT.", return_tensors="pt")
outputs = model(**inputs)
---

About

⚖📝 HelBERT, um modelo de linguagem pré treinado com textos de Editais de Licitações.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

AltStyle によって変換されたページ (->オリジナル) /