Home
Jobs
DPO (Direct Preference Optimization)

DPO (Direct Preference Optimization) Jobs

Browse 5 DPO (Direct Preference Optimization) jobs on Inference Jobs.

5 jobs

3w ago

Research Intern RL & Post-Training Systems, Turbo (Fall 2026)

Together AI

San Francisco, California, United States (On-site)$58 – $63 Hourly

Research Intern

Reinforcement Learning Research

Reinforcement Learning

RLHF

3d ago

PhD Software Engineering Intern, Decision Intelligence - Fall 2026

NVIDIA

Santa Clara, California, United States (On-site)$30 – $94 Hourly

Software Engineering Intern

Decision Optimization

C++

CUDA

2w ago

Member of Technical Staff - Post-Training and RL

xAI

Palo Alto, California, United States (On-site)$180K – $600K Yearly

Machine Learning Research

Post-Training

Reinforcement Learning

RLHF

3w ago

Forward Deployed Engineer - LLM Post-training

Reflection AI

San Francisco, California, United States (On-site)

Forward Deployed Engineer

ML Engineer

Python

Fine-tuning

4w ago

Research Engineer, Core ML

Together AI

San Francisco, California, United States (On-site)$200K – $280K Yearly

Machine Learning Research

Machine Learning Engineer

RL Algorithms

Inference Optimization

Inference Jobs

Discover the latest AI roles from Inference Jobs.

Powered byCavuno

For Candidates

Jobs
Companies
Pricing

For Companies

Post a job
Pricing

Resources

Locations
Salaries
Sitemap

About

About