Fenómenos del condicionamiento operante

La conducta supersticiosa

Skinner demostró con su “experimento de superstición” parte de las consecuencias que el reforzamiento accidental tiene en el proceso de aprendizaje. En el experimento ponía palomas en cajas independientes, y les daba una pequeña cantidad de comida cada 15 segundos independientemente de lo que hicieran, y registraba su comportamiento. Lo que observo es que los animales actuaban como si su comportamiento estuviera relacionado, como si controlara, la entrega del reforzador cuando en ningún caso era así. Skinner explico este comportamiento mediante la idea del reforzamiento accidental o adventicio, o dicho de otra forma, que si una respuesta ocurre cuando se entrega el reforzador esa conducta es reforzada. Si una de las palomas por ejemplo había levantado la cabeza antes de la comida, esa conducta se verá reforzada y tendrá más probabilidad de ocurrencia.

Esta explicación fue puesta en duda por otro experimento de Staddon y Simmelhag en el que hicieron un registro de las conductas más minucioso. Encontraron que las respuestas emitidas por los animales se podían agrupar en dos categorías a las que llamaron conductas de ínterin y conductas terminales.

Las conductas de ínterin fueron definidas como aquellas actividades del animal que tenían lugar en el medio del intervalo, cuando faltaba todavía bastante tiempo para la aparición del reforzador. Este tipo de conductas incluían moverse a lo largo de la pared frontal de la caja o dar vueltas sobre sí mismas.

Las conductas terminales las definieron como aquellas que ocurrían al final del intervalo y próximas en el tiempo a la aparición del reforzador. Entre estas actividades o respuestas incluyeron, por ejemplo, que la paloma picotease en el comedero o en sus proximidades. Los autores observaron que este patrón de respuestas no variaba de forma significativa de unas palomas a otras y por ello argumentaron que no es el reforzamiento accidental lo que origina un aumento en la frecuencia de las conductas de ínterin, sino que estas conductas son simplemente respuestas que un sujeto emite de forma innata cuando la probabilidad de reforzamiento es baja.

Por otro lado la entrega de comida parecía solo influir en las respuestas terminales, y su aparición no estaría relacionada con un reforzamiento accidental.

En resumen, podríamos pensar que determinadas «conductas supersticiosas» estarían explicadas por el reforzamiento accidental propuesto por Skinner, y otras por mecanismos que tendrían que ver con conductas innatas relacionadas con la manera en que los organismos se relacionan con el paso del tiempo y la aparición de reforzadores en ambientes naturales.

En humanos, las conductas supersticiosas ocurren frecuentemente en situaciones en las que no hay ningún tipo de control sobre las consecuencias de las acciones, como en juegos de azar. La conducta supersticiosa también es habitual en los deportistas. Los comportamientos supersticiosos que muestran muchos deportistas de elite tienen, con frecuencia, su origen en algún tipo de éxito con el que esa conducta ha tenido relación en el pasado: como la prenda que llevaban cuando ganaron un título y que se ponen siempre desde entonces.

Herrstein diferenció la forma en que se adquieren determinadas supersticiones humanas estableciendo principios diferentes para cada una de ellas: por una parte las supersticiones idiosincráticas que están motivadas por la experiencia propia anterior con situaciones de reforzamiento, y por otra las supersticiones sociales típicas mantenidas en el tiempo, que sugirió que eran un residuo de contingencias de reforzamiento previas que ya no eran efectivas, pero que en su momento eran de gran relevancia.

La deriva instintiva y el concepto de relevancia o pertinencia

En el CO existen situaciones en las que se observan relaciones de pertinencia o relevancia entre respuestas y reforzadores, es decir hay respuestas que son más difíciles de condicionar cuando se utilizan ciertos tipos de reforzamiento. Thorndike fue el primero en señalar la facilidad o dificultad para condicionar determinadas respuestas y propuso el término de pertinencia, que se refiere a que algunas respuestas se relacionarían de modo natural con el reforzador como consecuencia de la historia evolutiva del animal, por lo que serán más fáciles de condicionar que otras dependiendo del reforzador que usemos.

Los Breland, dos estudiantes de Skinner que se dedicaron a entrenar animales, observaron que había ciertas respuestas naturales que se presentaban cuando el reforzador empleado era comida y que competían con las respuestas que requería el entrenador. Llamaron deriva instintiva al desarrollo de estas conductas relacionadas con la comida, que eran diferentes según el animal. Por ejemplo los mapaches tenían que introducir una moneda en una hucha para conseguir comida, pero los animales frotaban las monedas sin llegar a depositarla.

Los cambios en la cantidad y calidad de la recompensa: el fenómeno del contraste conductual

El contraste conductual es un fenómeno, relacionado con la motivación, que se basa en el hecho de que la efectividad de un reforzador para controlar una conducta puede verse modificada por la experiencia previa con el mismo reforzador cuando éste es de una magnitud o calidad diferente. Si aumenta o disminuye el reforzador, en relación a lo que percibíamos antes, tiene consecuencias en nuestra conducta y emociones.

Los efectos que tienen los cambios en la eficacia del reforzador fueron ilustrados de forma clara por Mellgren. En su experimento utilizó cuatro grupos de ratas a las que midió la velocidad de la carrera en una recta. En la primera fase, al grupo A y al B les dio 2 bolitas de comida al llegar al final, mientras que los grupos C y D recibieron 22 bolitas. En la segunda fase, el grupo A seguía recibiendo 2 bolitas, mientras que el B pasó a recibir 22. De la misma forma el grupo C mantuvo su recompensa de 22 bolitas, pero el D pasó a obtener solo 2.

Los resultados mostraron que los grupos a los que no se les varió la cantidad de comida mostraron la misma velocidad; a los que aumentaron la cantidad de comida aumentaron su velocidad; y los que pasaron de una recompensa grande a la recompensa pequeña disminuyeron significativamente su velocidad. Esto demuestra que los efectos de la recompensa dependen de la experiencia previa con otras recompensas, y no de su valor absoluto. Las ratas que experimentaron una recompensa más favorable que la anterior corrieron más rápido que las que tenían recompensa grande en ambas carreras, fenómeno conocido como contraste conductual positivo. Las que recibieron la recompensa desfavorable en la segunda fase respecto a la primera, corrían más lento que las que siempre habían tenido recompensa pequeña: contraste conductual negativo.

También se ha propuesto que el fenómeno de contraste puede depender del estado afectivo previo, y puede mostrarse de forma diferente dependiendo si es negativo o positivo. Por tanto la sensibilidad de un individuo hacia la ganancia o pérdida de recompensas también dependería del estado emocional en el que se encuentre.

La controlabilidad de las consecuencias aversivas y el efecto de indefensión aprendida 

Martin E. P. Seligman y sus colaboradores descubrieron que cuando los animales son sometidos a situaciones en las que tienen poco o ningún control, desarrollan una reacción emocional en la que manifiestan un comportamiento pasivo ante dichas circunstancias o circunstancias parecidas, y se piensa que esta reacción es similar a la depresión humana. Este efecto conductual, denominado indefensión aprendida, ha sido confirmado en distintas ocasiones, por varios laboratorios y en diferentes especies, lo que indica lo robusto y general que es el fenómeno.

En estos experimentos, en una primera fase (fase de preexposición al entrenamiento escape/evitación) asignaron grupos de perros a tres condiciones experimentales: en la primera, el grupo de control, si el animal emitía la respuesta requerida podía detener o impedir la presentación de una descarga, era un entrenamiento de escape/evitación. El segundo grupo, el experimental acoplado, recibía las mismas descargas que el grupo anterior pero en este caso la conducta del animal no tenía consecuencias sobre las descargas. Se utilizó un segundo grupo de control, que estaba confinado en la misma situación que los demás grupos, pero no recibía descargas en esta fase. En la segunda fase del experimento (fase de aprendizaje) todos los grupos de animales fueron sometidos a varios ensayos de entrenamiento escape/evitación. Observaron que el grupo acoplado, que había recibido descargas inescapables durante la preexposición, mostraba un aprendizaje escape/evitación mucho más lento que los otros grupos. También demostraron que no había diferencias entre los grupos de animales sometidos a descargas escapables y los que no recibieron descarga en la fase de preexposición.

Los investigadores concluyeron que el entrenamiento anterior con las descargas inescapables, generaba en los animales la expectativa de que su conducta no tenía ningún efecto sobre las consecuencias aversivas que experimentaba, ya que aprendían que la aparición de las descargas era independiente de su conducta.A esta explicación del fenómeno se la conoce como la hipótesis de la indefensión aprendida.

Seligman sugirió que el mejor tratamiento para la indefensión es ubicar al sujeto en una situación en la que no fuese posible fallar dado que ello generara de nuevo la expectativa de que la conducta toma control sobre las consecuencias. Son también interesantes los estudios que demostraron que la indefensión aprendida se puede, de alguna manera, prevenir. Seligman llamo inmunización al proceso que se desarrolla cuando un sujeto tiene una primera experiencia con descargas escapables que bloquea el desarrollo de la indefensión aprendida cuando se presentan descargas inescapables en una fase posterior.

Los efectos de la demora del reforzador: el procedimiento de marcado

Una respuesta es difícil de reforzar cuando la entrega de la recompensa se demora en el tiempo, y muy fácil reforzar una respuesta o conducta cuando la recompensa o reforzador se entrega inmediatamente. La demora del reforzamiento ocurre cuando existe un periodo de tiempo entre la respuesta que da lugar al reforzador y la entrega posterior del mismo. En función de las circunstancias, la demora del reforzamiento puede disminuir o aumentar la conducta, o incluso no modificarla respecto al reforzamiento no demorado.

Además, el mismo valor de demora puede tener diferentes efectos en función de otros parámetros, tanto de dicha demora como de las condiciones del mantenimiento del reforzamiento. Hay que obtener una línea base de respuesta estable a partir de la cual poder observar los efectos de la presentación demorada del reforzador. Cuando la línea base es estable y se impone una demora, normalmente esta da lugar a una reducción de la respuesta, sin embargo, incluso en estas condiciones no siempre eso es así, ya que en un primer momento incluso puede ocurrir un aumento. Se trata de un proceso dinámico resultado de las acciones directas o indirectas de distintas variables en la conducta. Una forma de evitar los efectos de la demora en la entrega del reforzador consiste en marcar la respuesta haciendo que esta pueda diferenciarse de otros eventos que ocurren durante el periodo de demora. La presentación de un estímulo contingente a la respuesta convierte esa respuesta en un evento significativo, es el procedimiento de marcado.

En el experimento los animales se asignan a dos grupos por azar: grupo marcado (experimental) y grupo no marcado (control). Si los animales pasaban por el brazo lateral negro del dibujo inferior, recibían comida en la caja meta. En el momento en que elegían por qué brazo pasar, los animales del grupo marcado eran trasladados a la caja de demora, pero a los del grupo control se les abría la puerta del brazo y les dejaban pasar libremente.

Los sujetos del grupo marcado mostraron un mayor número de elecciones correctas a lo largo de los ensayos.

La explicación que dieron los autores a estos resultados es que la manipulación de los animales posterior a la respuesta de elección provoca un marcado de la respuesta de elección en la memoria de los sujetos y que esto hace más probable recuperar esta respuesta cuando los sujetos reciben la recompensa después de la demora.

Devaluación del reforzador

El procedimiento de devaluación del reforzador demuestra que se aprenden asociaciones entre la respuesta y la consecuencia en un CO. Consiste en asociar al reforzador que se está utilizando (comida, por ejemplo) un estímulo o evento de naturaleza contraria (en experimentos con animales, podría ser una sustancia aversiva como el cloruro de litio).

Se puede llevar a cabo en una caja de CO con dos palancas. En la primera fase del experimento, cualquiera de las dos palancas dará acceso a la comida, en la palanca A sabor a naranja y en la B a fresa.Los animales las presionan indistintamente. En una segunda fase, una de las bolitas de comida de uno de los sabores (por ejemplo, la de fresa) se empareja fuera de la caja con la sustancia aversiva.Finalmente en una tercera fase los animales vuelven a ser introducidos a la caja de CO para ver que palana pulsan más ahora, y por tanto que respuesta prefieren. El resultado es que la respuesta operante de la palanca que da al reforzador asociado a la sustancia aversiva, en este caso sería la palanca B, disminuye, aun cuando presionar esta palanca nunca ha sido contingente al estímulo aversivo.

Otro experimento con ratas para demostrar la devaluación del reforzador. Los animales podían bien tirar de una cadena y les daban agua con azúcar, o bien dar una palanca y les daban comida.

Posteriormente, sin estar disponibles ni la palanca ni la cadena (es decir, de forma no contingente) se les dispensó la comida y el agua y a la mitad les inyectaron litio para crearles malestar. Cuando les metieron de nuevo en la caja de condicionamiento, vieron que las ratas que había sufrido el malestar presionaron mucho menos los mecanismos para acceder a los reforzadores. Por tanto habían aprendido acerca de las consecuencias de su conducta durante el CO.

Sin embargo, en determinadas ocasiones la ejecución de una respuesta instrumental puede llegar a automatizarse si se entrena o practica de forma masiva. En este sentido, algunos autores han diferenciado entre lo que sería la acción instrumental, relacionada con aquellas respuestas que son modificadas por el valor de sus consecuencias, de aquellas cuya ejecución no depende del valor actual del reforzador a las que se les daría el nombre de hábitos. En laboratorio se ha demostrado que la extensión de un entrenamiento puede hacer que una conducta se automatice y que no sea controlada por el valor de las consecuencias, tomando forma de hábito.

Dos grupos de ratas presionando palancas utilizando como reforzador bolitas de sacarosa. Uno de los grupos el entrenamiento se limitó a 100 respuestas reforzadas, pero en otro llegó a 500. Después inyectaron cloruro de litio a la mitad de animales de cada grupo. En la fase de prueba se observó que la devaluación del reforzador solo tuvo un efecto claro en animales con entrenamiento corto, demostrando que la práctica prolongada da lugar a una ejecución de la conducta mucho más rígida, menos deliberada, y que no depende tanto de las consecuencias de la misma.

Esto explicaría que determinadas conductas compulsivas, como la búsqueda de drogas, dependan de mecanismos de aprendizaje diferentes a los que se dan durante la adquisición de la conducta.

Contenido relacionado