Home
Jobs
Cluster Reliability

Cluster Reliability Jobs

Browse 220 Cluster Reliability jobs on Inference Jobs.

201-220 of 220 jobs

1wCE

Senior Technical Program Manager – AI Infrastructure, Site Operations

Cerebras

Sunnyvale, California, United States (On-site)

Data Center Operations

Deployment

1wMA

Software Engineer, DevOps, Research Platform

Mistral AI

Île de Ré, Charente-Maritime, France (Hybrid)

DevOps

Infrastructure Engineering

4wNV

Senior Storage Production Engineer - DGX Cloud

NVIDIA

Santa Clara, California, United States (On-site)$176k – $333.5k Yearly

DevOps

Infrastructure Engineering

1wCO

Quality Engineer

CoreWeave

Denton, Texas, United States (On-site)$122k – $179k Yearly

Data Center Operations

Hardware Engineering

1wCR

Engineering Manager (Managed Services, Production Engineering)

Crusoe

San Francisco, California, United States (On-site)$209k – $253k Yearly

Cloud Engineering

Engineering Management

2wOP

Senior Support Engineer - Tokyo

OpenAI

東京都, Tokyo Prefecture, Japan (Hybrid)

Senior Support Engineer

Site Reliability Engineer

1wCO

Director, Hardware Quality & NPI Operations

CoreWeave

Livingston, New Jersey, United States (Hybrid)$180k – $264k Yearly

Hardware Engineering

Manufacturing Engineering

5dTE

DevOps Architect

Tenstorrent

Austin, Texas, United States (Hybrid)$100k – $500k Yearly

Cloud Infrastructure

DevOps

4wAN

Technical Program Manager, Safeguards – Infrastructure & Evals

Anthropic

San Francisco, California, United States (Hybrid)$290k – $365k Yearly

AI Safety

Infrastructure Program Management

3wCE

Staff Software Engineer, Observability

Cerebras

Sunnyvale, California, United States (On-site)

Backend Engineering

DevOps

1wCO

Data Centre Technician

CoreWeave

Falun, Dalarna, Sweden (On-site)

Data Center Operations

Data Center Operations - Europe

21hNE

Senior Software Engineer in Hardware Infrastructure Observability

Nebius

Amsterdam, North Holland, Netherlands (On-site)

Backend Development

DevOps

4wNE

Technical Project Manager / IT Infrastructure Engineer

Nebius

Île de Ré, Charente-Maritime, France (On-site)

Data Center Operations

Hardware Infrastructure

3wNE

Data Center IT Support Manager (Longcross)

Nebius

London, England, United Kingdom (On-site)

Data Center Manager

Data Center Operations

6dNV

Global Connectivity Distinguished Engineer

NVIDIA

Santa Clara, California, United States (On-site)$320k – $488.8k Yearly

Data Center Engineering

Infrastructure Engineering

19hAN

Senior Engineer, Datacenter Server Lifecycle

Anthropic

London, England, United Kingdom (Hybrid)£255k – £325k Yearly

Datacenter Engineering

DevOps

6dNV

Distinguished Resiliency and Safety Architect, GPU Diagnostics

NVIDIA

Santa Clara, California, United States (On-site)$320k – $488.8k Yearly

Diagnostics

Embedded Systems

2wCO

Forward Deployed Engineer, Infrastructure Specialist

Cohere

Japan or Remote (Japan + 2 more)

Cloud Infrastructure

DevOps Engineer

5dCR

Senior Manager, Data Center Operations

Crusoe

Houston, Texas, United States (On-site)$160k – $195k Yearly

Data Center Management

Data Center Operations

2wCR

Sr/Staff Software Engineer, Observability (Network Engineering)

Crusoe

San Francisco, California, United States (On-site)$172k – $253k Yearly

DevOps

Observability Engineering

Inference Jobs

Senior Technical Program Manager – AI Infrastructure, Site Operations

Software Engineer, DevOps, Research Platform

Senior Storage Production Engineer - DGX Cloud

Quality Engineer

Engineering Manager (Managed Services, Production Engineering)

Senior Support Engineer - Tokyo

Director, Hardware Quality & NPI Operations

DevOps Architect

Technical Program Manager, Safeguards – Infrastructure & Evals

Staff Software Engineer, Observability

Data Centre Technician

Senior Software Engineer in Hardware Infrastructure Observability

Technical Project Manager / IT Infrastructure Engineer

Data Center IT Support Manager (Longcross)

Global Connectivity Distinguished Engineer

Senior Engineer, Datacenter Server Lifecycle

Distinguished Resiliency and Safety Architect, GPU Diagnostics

Forward Deployed Engineer, Infrastructure Specialist

Senior Manager, Data Center Operations

Sr/Staff Software Engineer, Observability (Network Engineering)

Related searches