JeremyJC67

Follow

Jeremy Wang JeremyJC67

Follow

Agentic Eval & Post Training

3 followers · 13 following

Achievements

Achievements

Highlights

Pro

Pinned Loading

SecurityLab-UCD/ContractBench SecurityLab-UCD/ContractBench Public

ContractBench: evaluating observation contract failures (validity + integrity) in LLM agents. 33 harbor-runnable API-contract tasks with deterministic programmatic evaluation.

Python 1
SecurityLab-UCD/FuzzAug SecurityLab-UCD/FuzzAug Public

[EMNLP'25] FuzzAug: Data Augmentation by Coverage-guided Fuzzing for Neural Test Generation

Python 7 1
harbor-framework/harbor harbor-framework/harbor Public

Framework for evaluating and improving agents

Python 2.7k 1.2k
radixark/miles radixark/miles Public

Miles is an enterprise-facing reinforcement learning framework for LLM and VLM post-training, forked from and co-evolving with slime.

Python 1.6k 285
SecurityLab-UCD/UniTSyn SecurityLab-UCD/UniTSyn Public

[ISSTA'24] A Large-Scale Dataset Capable of Enhancing the Prowess of Large Language Models for Program Testing

Python 12 1
UKGovernmentBEIS/inspect_evals UKGovernmentBEIS/inspect_evals Public

Collection of evals for Inspect AI

Python 554 358