Home
Jobs
Model Interpretability

Model Interpretability Jobs

Browse 6 Model Interpretability jobs on Inference Jobs.

6 jobs

1w ago

Research Scientist, Interpretability

Anthropic

San Francisco, California, United States (On-site)$350K – $850K Yearly

AI Research

Machine Learning Research

Python

Machine Learning

1w ago

Research Engineer, Interpretability

Anthropic

San Francisco, California, United States (On-site)$315K – $560K Yearly

AI Research

Machine Learning Engineer

Python

Rust

3w ago

Researcher, Interpretability

OpenAI

San Francisco, California, United States (On-site)$295K – $445K Yearly

Machine Learning Research

AI Safety Research

Mechanistic Interpretability

Deep Learning

1w ago

[Expression of Interest] Research Manager, Interpretability

Anthropic

San Francisco, California, United States (On-site)$350K – $500K Yearly

AI Research & Engineering

Research Management

Mechanistic Interpretability

AI Safety

2w ago

Researcher, Alignment CoT Monitorability

OpenAI

San Francisco, California, United States (Hybrid)$250K – $445K Yearly

Research

Alignment

Machine Learning

Large Language Models

4w ago

Research Scientist, Safety Post Training

Scale

San Francisco, California, United States (On-site)$216K – $270K Yearly

Research Scientist

AI Safety Research

Post-Training Methods

RLHF