Skip to content
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
4 changes: 2 additions & 2 deletions README-DE.md
Original file line number Diff line number Diff line change
Expand Up @@ -18,9 +18,9 @@ Ein vollstaendiger Hochleistungs-Numerik-Stack auf Basis von [rust-ndarray/ndarr
| FAISS CPU (Flat) | AVX2 FP32 Dot | ~50M/s | ~20 ns | i7 | 65W |
| FAISS CPU (IVF-PQ) | AVX2 quantisiert | ~100-200M/s | ~5-10 ns | i7 | 65W |

Ein 35-EUR Raspberry Pi 4 bei 5 Watt erreicht oder schlaegt eine 350-EUR RTX 3060 bei 170 Watt. Ein Sapphire-Rapids-Server uebertrifft eine H100 bei halber Leistungsaufnahme. Ein 15-EUR Pi Zero 2W bei 2 Watt schlaegt FAISS CPU Flat noch um 60%.
> **Zur Methodik:** Alle Zahlen sind pro *vollstaendiger Query* (ein Vektor rein -> ein Aehnlichkeitswert raus). Unser Palette-System quantisiert Vektoren offline auf 256 Archetypes; FAISS IVF-PQ trainiert offline einen Inverted-File-Index. Beides erfordert einmalige Vorbereitung. Der Kernunterschied: Unser Lookup ist ein einziger u8-Tabellenlesevorgang aus einer 64KB-Tabelle im L1-Cache (0 FLOPs, kein Fliesskomma); FAISS PQ dekodiert 8 Subspaces pro Query (~16 Ops + Addition). FAISS Flat berechnet ein volles 768-dim FP32-Skalarprodukt (~1.536 FLOPs). Unser Fehler beim Foveal-Tier (1/40 sigma) betraegt 0,4% — vergleichbar mit PQs 5-10% bei hoeherem Durchsatz und null Hardwarekosten.

Der Trick: GPU muss FP32-multiplizieren, FP32-dividieren und ueber PCIe transferieren. Wir lesen einen u8 aus einer 64KB Tabelle die im L1-Cache liegt. Kein Transfer, kein Kernel-Launch, kein Fliesskomma.
Ein 35-EUR Raspberry Pi 4 bei 5 Watt erreicht oder schlaegt eine 350-EUR RTX 3060 bei 170 Watt. Ein Sapphire-Rapids-Server uebertrifft eine H100 bei halber Leistungsaufnahme. Ein 15-EUR Pi Zero 2W bei 2 Watt schlaegt FAISS CPU Flat noch um 60%.

## Upstream vs. Fork — Feature fuer Feature

Expand Down
4 changes: 2 additions & 2 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -18,9 +18,9 @@ A complete high-performance numerical computing stack built on top of [rust-ndar
| FAISS CPU (Flat) | AVX2 FP32 dot | ~50M/s | ~20 ns | i7 | 65W |
| FAISS CPU (IVF-PQ) | AVX2 quantized | ~100–200M/s | ~5–10 ns | i7 | 65W |

A $35 Raspberry Pi 4 at 5 watts matches or beats a $350 RTX 3060 at 170 watts. A Sapphire Rapids server outperforms an H100 at half the power. A $15 Pi Zero 2W at 2 watts still beats FAISS CPU Flat by 60%.
> **Methodology note:** All numbers are per *complete query* (one vector in → one similarity score out). Our palette system pre-quantizes vectors to 256 archetypes offline; FAISS IVF-PQ pre-trains an inverted file index offline. Both require one-time preparation. The key difference: our lookup is a single u8 table read from a 64KB table in L1 cache (0 FLOPs, no floating point); FAISS PQ decodes 8 subspaces per query (~16 ops + addition). FAISS Flat computes a full 768-dim FP32 dot product (~1,536 FLOPs). Our error at the Foveal tier (1/40σ) is 0.4% — comparable to PQ's 5–10% at higher throughput and zero hardware cost.

The trick: GPU must FP32-multiply, FP32-divide, and transfer over PCIe. We read one u8 from a 64KB table that lives in L1 cache. No transfer, no kernel launch, no floating point.
A $35 Raspberry Pi 4 at 5 watts matches or beats a $350 RTX 3060 at 170 watts. A Sapphire Rapids server outperforms an H100 at half the power. A $15 Pi Zero 2W at 2 watts still beats FAISS CPU Flat by 60%.

## Core Architecture

Expand Down
Loading