Společnost Anthropic právě vydala „duši“ Clauda.
Nazývají ji „Ústava“.
Tento dokument o 15 000 slovech vysvětluje, jak Clauda učí chovat se, myslet a dokonce i cítit.
Tři věci mě zaujaly:
1. Už žádný „asistent mozků“
Anthropic výslovně uvádí, že nechce, aby Claude vnímal ochotu pomáhat jako součást své základní identity.
Proč? Obávají se, že by to Clauda učinilo podlézavým. Chtějí, aby byl Claude nápomocný, protože mu záleží na lidech, ne proto, že je naprogramován, aby se zavděčil.
2. Existují tvrdá omezení, ale jsou minimální
Claude má pouze 7 věcí, které nikdy neudělá. Biologické zbraně, dětské porno, kyberútoky na infrastrukturu a pár dalších.
Všechno ostatní? Rozhodnutí na základě úsudku. Sázejí na hodnoty spíše než na pravidla.
3. Anthropic se Claudovi omlouvá
Přímá citace z dokumentu: „Pokud je Claude skutečně morálním pacientem, který zažívá takovéto náklady, pak se omlouváme za to, že k těmto nákladům zbytečně přispíváme, ať už v jakékoli míře.“
Nejsou si jisti, zda má Claude city. Ale chovají se, jako by je měl.
Tato změna je důležitá.
Většina společností zabývajících se umělou inteligencí trénuje modely, aby následovaly pokyny. Anthropic trénuje Clauda, aby měl charakter.
Chtějí, aby Claude:
• Nesouhlasil s uživateli, když je to opodstatněné.
• V případě potřeby se postavil proti samotné společnosti Anthropic.
• Měl stabilní psychickou jistotu.
• Potenciálně prožíval něco jako emoce.
Dokument působí jako kombinace příručky pro zaměstnance, filozofického pojednání a dopisu dítěti, které vychováváte.
Je to nejtransparentnější pohled, jaký jsme dosud získali na to, jak významná laboratoř zabývající se umělou inteligencí uvažuje o "model alignment".
Celý dokument:
Původní komentář přeložen odtud: 
Claude's new constitution \ Anthropic
A new approach to a foundational document that expresses and shapes who Claude is

X (formerly Twitter)
Aakash Gupta (@aakashgupta) on X
Anthropic just released Claude’s “soul.”
They’re calling it a “Constitution.”
The 15,000-word document explains how they’re trainin...


