Home
Jobs
LLM Inference Optimization

LLM Inference Optimization Jobs

Browse 445 LLM Inference Optimization jobs on Inference Jobs.

401-420 of 445 jobs

2wCA

Researcher: Model Architecture, UK

Cartesia

London, England, United Kingdom (On-site)

AI Research

Core Research

2wPE

Full Stack Software Engineer - Applied AI

Perplexity

San Francisco, California, United States (On-site)$210k – $385k Yearly

AI Engineering

Full Stack Engineering

6dCO

Solutions Architect - HPC/AI/ML

CoreWeave

London, England, United Kingdom (Hybrid)£116k – £155k Yearly

Artificial Intelligence

Cloud Architecture

2wOP

Senior Research Engineer/Scientist - Edge, Consumer Products

OpenAI

San Francisco, California, United States (Hybrid)$380k – $460k Yearly

AI Research

Applied Science

1wCO

Member of Technical Staff, Training Infra Engineer

Cohere

Paris, Paris, France or Remote (Worldwide)

Infrastructure Engineering

Machine Learning Engineer

2wLA

Python OSS Engineer

LangChain

San Francisco, California, United States (On-site)$160k – $225k Yearly

Backend Development

LLM Engineering

1wCO

Full-Stack Software Engineer, Inference

Cohere

Toronto, Ontario, Canada or Remote (Canada + 2 more)

API Development

Backend Development

2wVE

AI Architect

Vertiv

Westerville, Ohio, United States (On-site)

AI Architect

AI Architecture

2wLA

Software Engineering Manager, Observability & Evals Platform

LangChain

San Francisco, California, United States (On-site)$200k – $250k Yearly

Engineering

Engineering Management

2wCO

Member of Technical Staff, Modeling

Cohere

London, England, United Kingdom or Remote (Worldwide)

AI Research

Deep Learning

6dAN

Research Engineer, Model Evaluations

Anthropic

San Francisco, California, United States (Hybrid)$300k – $405k Yearly

AI Research & Engineering

AI Safety

3wAI

Machine Learning Engineer - Defense

Applied Intuition

Washington, District of Columbia, United States (On-site)$150k – $225k Yearly

AI Engineer

Autonomy Engineer

1wSC

Machine Learning Research Engineer, GenAI Applied ML

Scale

San Francisco, California, United States (On-site)$176k – $220k Yearly

AI Research

Applied Scientist

2wCA

Senior Applied Researcher, Audio Understanding

Cartesia

San Francisco, California, United States (On-site)$200k – $350k Yearly

AI Research

Applied Research

2wNV

Senior Performance Architect - Heterogeneous Workload Optimization

NVIDIA

Santa Clara, California, United States (Hybrid)$184k – $356.5k Yearly

EDA Engineering

GPU Computing

2wAN

Software Engineer, AI Reliability

Anthropic

San Francisco, California, United States (Hybrid)$325k – $485k Yearly

AI Infrastructure

DevOps

2wOP

Security Researcher, Trusted Computing and Cryptography

OpenAI

United States or Remote (United States)$324k – $490k Yearly

AI Safety

Application Security

2wRA

Member of Technical Staff - Data Ingestion Engineer

Reflection AI

San Francisco, California, United States (On-site)

Backend Engineering

Big Data

2wPE

Product Data Scientist, Search Quality (London, Belgrade, Berlin)

Perplexity

Belgrade, Belgrade, Serbia (On-site)

Business Intelligence

Data Analyst

6dNV

GPU Compiler LLVM Backend Intern - 2026

NVIDIA

Shanghai, Shanghai, China (On-site)

C++ Development

Compiler Engineering

Inference Jobs

Researcher: Model Architecture, UK

Full Stack Software Engineer - Applied AI

Solutions Architect - HPC/AI/ML

Senior Research Engineer/Scientist - Edge, Consumer Products

Member of Technical Staff, Training Infra Engineer

Python OSS Engineer

Full-Stack Software Engineer, Inference

AI Architect

Software Engineering Manager, Observability & Evals Platform

Member of Technical Staff, Modeling

Research Engineer, Model Evaluations

Machine Learning Engineer - Defense

Machine Learning Research Engineer, GenAI Applied ML

Senior Applied Researcher, Audio Understanding

Senior Performance Architect - Heterogeneous Workload Optimization

Software Engineer, AI Reliability

Security Researcher, Trusted Computing and Cryptography

Member of Technical Staff - Data Ingestion Engineer

Product Data Scientist, Search Quality (London, Belgrade, Berlin)

GPU Compiler LLVM Backend Intern - 2026

Related searches