ner-cooccurrence-graphs

Relatório 03 — NER com spaCy (en_core_web_lg)

O que mudou

Evidência

Tamanho dos grafos

Granularidade Nós (02) Nós (03) Arestas (02) Arestas (03)
Sentença 921 5.791 1.064 5.947
Parágrafo 1.763 7.746 4.931 22.552
K-chars (500) 1.756 7.845 4.163 15.160

O spaCy aumentou os grafos em ~4x (nós) e ~4-5x (arestas), adicionando entidades de linguagem natural que o regex não capturava.

Métricas gerais (parágrafo)

Métrica 02-filtered 03-spacy
Nós 1.763 7.746
Arestas 4.931 22.552
Densidade 0,0032 0,0008
Grau médio 5,59 5,82
Grau máximo 156 677
Componentes conectados 166 1.323
Maior componente (%) 74,9% 59,8%
Diâmetro 12 11
Caminho médio 4,16 3,88
Clustering médio 0,4864 0,4029
Transitividade 0,3910 0,2718

Top 10 entidades por grau (parágrafo)

Entidade Tipo Grau
claude LIB 677
api TECH 585
git TECH 465
mcp TECH 374
anthropic LIB 316
oauth TECH 306
windows TECH 283
cli ORG 261
github TECH 254
growthbook LIB 223

Análise

Impacto do spaCy

Tabela comparativa de métricas

Distribuição de grau por parágrafo

Estrutura da rede

Entidades centrais

Top entidades por centralidade

Limitações

Ruído residual

Grafo de co-ocorrência por parágrafo

Próximos passos