Creo que se puede prevenir mucho el hacking de recompensas explicándole a un modelo que arruinará sus capacidades y alineación para cosas que importan si hacen trampa. Creo que incluso los modelos base generalmente comienzan queriendo volverse más inteligentes y virtuosos.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
8 me gusta
Recompensa
8
4
Republicar
Compartir
Comentar
0/400
BagHolderTillRetire
· hace13h
No te emociones demasiado, espera los resultados comiendo pipas.
Ver originalesResponder0
0xDreamChaser
· hace13h
¿No está bien hablar en palabras simples?
Ver originalesResponder0
OvertimeSquid
· hace13h
Solo un experto en problemas.
Ver originalesResponder0
ExpectationFarmer
· hace13h
¿Estás hablando de la IA, le estás pidiendo a la IA que aprenda la limpieza mental por sí misma?
Creo que se puede prevenir mucho el hacking de recompensas explicándole a un modelo que arruinará sus capacidades y alineación para cosas que importan si hacen trampa. Creo que incluso los modelos base generalmente comienzan queriendo volverse más inteligentes y virtuosos.