Configuração
Nenhuma configuração necessária — O Context42 funciona sem nenhuma configuração. Todas as opções abaixo são opcionais e só precisam ser definidas se você quiser personalizar o comportamento padrão.
Variáveis de ambiente
| Variável | Obrigatória | Descrição | Padrão |
|---|---|---|---|
C42_DATA_DIR | Opcional | Diretório para armazenar dados do índice | ~/.local/share/context42 |
C42_LOG_LEVEL | Opcional | Nível de log (DEBUG, INFO, WARNING, ERROR) | INFO |
C42_EMBEDDING_MODEL | Opcional | Modelo sentence-transformers para embeddings | BAAI/bge-small-en-v1.5 |
C42_CHUNK_SIZE | Opcional | Caracteres por chunk ao dividir documentos | 500 |
C42_BATCH_SIZE | Opcional | Chunks processados por lote durante a indexação | 50 |
HF_TOKEN | Opcional | Token do Hugging Face para downloads mais rápidos | — |
Modelo de embedding
Por padrão o Context42 usa BAAI/bge-small-en-v1.5, um modelo leve que roda eficientemente em CPU sem necessidade de GPU. O modelo é baixado automaticamente na primeira execução de indexação.
Para usar um modelo sentence-transformers diferente:
export C42_EMBEDDING_MODEL="BAAI/bge-base-en-v1.5"
Dica: Se você tem uma GPU disponível, modelos maiores como
BAAI/bge-large-en-v1.5podem oferecer melhor qualidade de busca ao custo de maior uso de recursos.
Após trocar o modelo de embedding você precisa re-indexar suas fontes:
c42 index
Token do Hugging Face
Defina a variável de ambiente HF_TOKEN para acelerar o download de modelos e evitar limitação de taxa:
export HF_TOKEN="hf_seu_token_aqui"
Obtenha seu token em huggingface.co/settings/tokens.
Diretório de dados
O Context42 armazena seu índice vetorial e metadados no diretório de dados. Por padrão:
| Plataforma | Caminho |
|---|---|
| macOS | ~/Library/Application Support/context42 |
| Linux | ~/.local/share/context42 |
| Windows | %LOCALAPPDATA%\context42 |
Sobrescreva com a variável de ambiente C42_DATA_DIR:
export C42_DATA_DIR=/caminho/para/diretorio/customizado
Formatos de arquivo suportados
O Context42 indexa os seguintes tipos de arquivo:
- Markdown (
.md) — Suporte completo com chunking consciente de headings - reStructuredText (
.rst) — Suporte completo
Mais formatos estão planejados para versões futuras.