De nuevo la teoría de la evolución de Darwin tiene mucha influencia. Skinner en su obra The Behavior of Organisms relaciona los mecanismos de selección que expuso Darwin con la conducta, donde el reforzador es lo que actuaría como elemento seleccionador de las respuestas más apropiadas en una determinada ocasión.
Thorndike y la Ley del Efecto
Los trabajos de Thorndike son el comienzo del estudio científico del condicionamiento instrumental, tanto teórico como metodológico. Él denominó el condicionamiento instrumental como aprendizaje por ensayo y error, y centró en cómo los aciertos y los fracasos afectaban a la conducta de los organismos. Para este autor el aprendizaje ocurre porque se fortalecen las conexiones que se forman entre los estímulos y las respuestas cuando dan lugar a un estado de satisfacción para el animal. Denominó a esto conexionismo.
Sus experimentos más conocidos eran con gatos metidos en diferentes “cajas problema”, una especie de jaulas de las que podían salir al activar algún tipo de resorte desde el interior, y al salir el investigador les daba una cierta cantidad de comida. En los primeros intentos, tardaban un tiempo considerable y se movía por la caja de forma “azarosa”, explorando hasta dar por casualidad con el mecanismo de apertura. Según transcurrían los ensayos y repetían la tarea, el tiempo que tardaban en accionar el mecanismo y el tiempo en salir de la caja era mucho menor.
Este tiempo que pasaba desde que comenzaba el ensayo hasta que el sujeto salía de la caja, llamado latencia de escape, era la medida que Thorndike utilizó para la evaluación de la ejecución del aprendizaje. Observó que disminuía de forma muy notable a lo largo de los ensayos
A partir de estos resultados, Thorndike estableció que la entrega de comida fortalecía la conexión entre la situación (en este caso los estímulos en el entorno de la caja) y la respuesta del animal. Lo denominó Ley del efecto: De las muchas respuestas dadas en la misma situación, las que vayan acompañadas o inmediatamente seguidas de satisfacción para el animal, en igualdad de condiciones, se conectaran más firmemente con la situación; de manera que cuando esta vuelva a presentarse, volverán a presentarse con gran probabilidad.
Una explicación sencilla de este tipo de aprendizaje es: cuando en una determinada situación, una conducta va seguida de algo agradable, al volver de nuevo a esa misma situación será más probable que la conducta se vuelva a repetir. Las conductas con resultado placentero serían por tanto fortalecidas, y las conductas cuyo resultado fuese algo desagradable serían eliminadas.
El análisis experimental del comportamiento de Skinner
Skinner, considerado por muchos el autor más relevante de este tipo de aprendizaje, realizó una extensa investigación sobre los fundamentos del condicionamiento operante, lo que dio lugar a la formación de un gran número de investigaciones posteriores que lo siguieron desarrollando. En The Behavior of Organisms desarrolla la idea de que los reflejos podrían ser estudiados como conducta más que como un reflejo del sistema nervioso o de la mente: Skinner distingue entre el condicionamiento de los reflejos de Pavlov y el tipo de aprendizaje que había propuesto Thorndike, lo que le llevo a formular que la conducta se regula tanto por el condicionamiento de los reflejos o condicionamiento respondiente como por el operante.
Skinner se centró en las relaciones funcionales entre la conducta y sus consecuencias. Para el, tanto el condicionamiento operante como el respondiente debían solo prestar atención al estudio de las relaciones entre los eventos observables y la conducta.
Para describir los procedimientos utilizó los términos condicionamiento operante y condicionamiento instrumental. El termino operante refleja la capacidad que tiene el individuo para operar sobre su ambiente, mientras que el termino instrumental tiene en cuenta el hecho de que la conducta del sujeto es el instrumento para obtener el reforzador. La innovación de los experimentos de Skinner fue utilizar en ellos una respuesta que el sujeto podía ejecutar repetidamente sin intervención del experimentador (en ratas era presionar una palanca, en palomas picotear una tecla).
Este tipo de procedimientos son conocidos como de operante libre: en ellos la respuesta puede ocurrir en cualquier momento y de forma repetida mientras el sujeto siga en la caja de condicionamiento. La variable dependiente medida es la tasa de respuesta, o número de respuestas por unidad de tiempo, en lugar de la latencia que utilizaba Thorndike como medida.