5.4. Elementos fundamentales del condicionamiento instrumental

La esencia de la conducta instrumental es que está controlada por sus consecuencias. El condicionamiento instrumental consta de tres elementos claves; una respuesta, una consecuencia (el reforzador) y una relación o contingencia, entre la respuesta y la consecuencia.

La respuesta instrumental

El resultado de los procedimientos del condicionamiento instrumental depende en parte de la naturaleza de la respuesta que se este condicionando. Algunas respuestas son más fácilmente condicionables que otras.

Thorndike y Skinner enfatizaron que el reforzamiento incrementa la probabilidad de que la respuesta se repita en el futuro. Este énfasis alentó la creencia de que los procedimientos de condicionamiento instrumental producían repeticiones de la misma respuesta -que producían uniformidad o estereotipia en la conducta-. Sin embargo, esto no significa que el condicionamiento instrumental no pueda verse también involucrado en la producción de respuestas creativas o variables. Los organismos pueden aprender a obtener refuerzo en situaciones donde se requiera hacer algo nuevo.

Thorndike propuso el término de pertinencia para explicar los fallos en el entrenamiento del rascado y del bostezo, ciertas respuestas se corresponden de forma natural con el reforzador debido a la historia evolutiva del animal. Los Breland denominaron deriva instintiva

Al desarrollo de respuestas como la de hozar en los cerdos y frotar monedas en los mapaches. Estas respuestas naturales relacionadas con la comida eran aparentemente muy fuertes y competían con las respuestas que requería el investigador.

Las limitaciones de respuesta son coherentes con la teoría de los sistemas de conducta. La efectividad del procedimiento para el incremento de una respuesta instrumental dependerá de la compatibilidad de esa respuesta con la organización preexistente del sistema de alimentación. Shettleworth (1975) encontró que la privación de comida disminuía la probabilidad de respuestas de autocuidado pero incrementaba la probabilidad de actividades dirigidas al ambiente como cavar etc. Este patrón de resultados es el que se ha observado en estudios de condicionamiento instrumental.

Otra forma de diagnosticar si una respuesta es parte de un sistema de conducta es realizar un experimento de condicionamiento clásico; un EC llega a elicitar componentes del sistema de conducta activado por el EI: Si la deriva instintiva refleja las respuestas del sistema de conducta, las respuestas análogas a la deriva instintiva deberías ser evidentes en un experimento de condicionamiento clásico. Timberlake y colaboradores comprobaron estas predicciones ratas utilizando una modificación de los estudios de manipulación de monedas de Brelands.

El reforzador instrumental

En un estudio sistemático, Hutt (1954) intentó aislar los efectos de la cantidad y naturaleza del reforzador alimenticio liquido mediante la variación sistemática de ambos rasgos. Los incrementos en la calidad y cantidad produjeron mayor tasa de respuesta.

Se plantea la posibilidad de que la efectividad de un reforzador dependa no solo de sus propiedades sino también de cómo ese reforzador se compara con otros que el individuo haya experimentado. La efectividad de un EI en el condicionamiento clásica depende de cómo se compare el EI con las expectativas del individuo basándose en la experiencia previa, esta es la idea fundamental del modelo Rescorla-Wagner, si el EI es mayor de lo esperado, producirá condicionamiento excitatorio, si el EI es menor producirá condicionamiento inhibitorio. La evidencia experimental confirma esta impresión, los efectos de una cantidad o tipo de reforzador dependen de la cantidad y la naturaleza de los reforzadores que el individuo ha experimentado previamente (Mellgren, 1972). Los resultados que obtuvo ilustran  el fenómeno de contraste positivo; se refiere a una elevada respuesta por una recompensa favorable resultado de una experiencia anterior con una consecuencia menos atractiva y contraste negativo; se refiere a una respuesta disminuida por una recompensa desfavorable debido a una experiencia anterior con una consecuencia mejor. Los efectos de contraste también se dan si las condiciones de recompensa se modifican una y otra vez con una clave diferente señalando cada condición de recompensa, estos efectos son ejemplo de contraste conductual simultaneo.

Todos los efectos de contraste ilustran que la efectividad de un reforzador en una situación está determinada en parte por las experiencias del organismo con reforzadores en otras situaciones. Por razones que no están totalmente claras, el contraste negativo se ha obtenido de forma más clara que el contraste positivo.

La relación respuesta-reforzador

La conducta instrumental eficiente requiere sensibilidad a la relación respuesta reforzador. Existen dos tipos de relaciones entre una respuesta y un reforzador, una es la relación temporal. Que se refiere al tiempo que transcurre entre la respuesta y el reforzador, un tipo especial de relación temporal es la contigüidad temporal, la cual se refiere a la entrega del reforzador inmediatamente después de la respuesta. El segundo tipo de relación es la relación causal o contingencia respuesta reforzador, se refiere al hecho de que la respuesta instrumental es necesaria y suficiente para la ocurrencia del reforzador.

Los factores temporales y causales son independientes unos de otros.

El reforzamiento inmediato es preferible al reforzamiento demorado. Los psicólogos del aprendizaje han resaltado que el condicionamiento instrumental requiere proporcionar el reforzador inmediatamente después de la ocurrencia de la respuesta instrumental. Grice informó que el aprendizaje instrumental puede deteriorarse con demoras tan cortas como 0.5 seg. El hecho recurrente es que el aprendizaje instrumental se altera demorando el reforzador tras la ocurrencia de la respuesta instrumental.

Hay varios factores que pueden contribuir a este deterioro, cuando el reforzamiento es demorado tras la realización de una respuesta, R1, el organismo no deja de hacer cosas, r2 r3 r4 etc. Si el reforzador se establece en r1 pero no se entrega hasta algún tiempo después el reforzador puede ocurrir después de alguna otra respuesta  por ej. R5. Para asociar r1 con el reforzador, el organismo tiene que poder distinguir r1 de otras respuestas que realiza durante el intervalo de demora. Hay dos formas de resolver este problema. La primera técnica, es proporcionar un reforzador secundario o condicionado inmediatamente después de la respuesta instrumental, este es un estimulo condicionado que previamente ha sido asociado con el reforzador. Otra técnica es marcar la respuesta instrumental criterio de alguna manera para hacerla distinguible de otras actividades del organismo. La efectividad del procedimiento de marcado se demostró por primera vez por Lieberman, Mcintosh y Thomas (1979).

Los estudios de demora del reforzamiento muestran que no es suficiente una relación causal perfecta entre la respuesta y el reforzador para producir una respuesta instrumental vigorosa: incluso con una relación causal perfecta, el condicionamiento no ocurre si el reforzamiento es demorado durante demasiado tiempo. Datos como estos alentaron pronto a los investigadores a concluir que la contigüidad respuesta-reforzador más que la contingencia era el factor crítico que producía el aprendizaje instrumental. No obstante esta visión  ha resultado injustificada por la investigación posterior. La contingencia respuesta-reforzador es también importante.

El experimento de superstición Skinner fue un hito en el debate sobre el papel de la contigüidad frente a la contingencia en el aprendizaje instrumental. Las palomas parecían estar respondiendo como si la conducta controlara la entrega del reforzador.

La conducta supersticiosa descansa en la idea de reforzamiento accidental o adventicio, se refiere al emparejamiento accidental de una respuesta con la entrega de un reforzador, un segundo emparejamiento accidental aumenta aun más la probabilidad de la respuesta, de esta forma cada emparejamiento ayuda a estampar una respuesta particular.

La afirmación de Skinner ha sido puesta en duda por la evidencia empírica posterior. Stadon y Simmelhag (1971) realizaron observaciones más extensas, definieron y midieron la ocurrencia de muchas respuestas, algunas respuesta ocurrían de modo predominante hacia el final del intervalo entre reforzadores, las llamaron respuestas terminales. Otras aumentaron tras la entrega del reforzador y disminuían a medida que se acercaba el tiempo de la siguiente comida; respuestas de interin.

Las acciones que eran respuestas terminales y las que eran respuestas de interin no variaban mucho de una paloma a otra. No encontraron evidencia de reforzamiento accidental. La investigación posterior ha proporcionado mucha evidencia adicional de que las presentaciones periódicas de un reforzador producen regularidades en la conducta.

Staddon y Simmelhag sugirieron que las respuestas terminales son respuestas típicas de la especie que reflejan la anticipación de la comida a medida que en el tiempo se encuentra más cerca de la próxima presentación de comida. En contraste, entendieron las respuestas de interin como una manifestación de otras fuentes de motivación que eran más importantes al comienzo del intervalo entre comidas, cuando la presentación de comida era improbable. Los investigadores posteriores, sin embargo han favorecido aproximaciones en las cuales las respuestas  terminales y de interin se consideran diferentes manifestaciones del mismo sistema motivacional. La teoría mejor desarrollada es la teoría de sistema de conducta: el sistema de alimentación esta activado en animales privados de comida a los que se les proporciona periódicamente pequeñas cantidades de comida. Justo después de la entrega de comida se asume que el organismo realiza respuestas de búsqueda focalizada poscomida, en medio del intervalo entre entregas ocurren respuestas de búsqueda general, en el momento de la próxima entrega de comida respuestas de búsqueda focalizada.

La distribución de las actividades que se desarrollan con la entrega periódica de un reforzador depende de la naturaleza de ese reforzador, se desarrollan diferentes sistemas de conducta, congruente con la teoría de sistemas, según sea agua o comida, debido a que activan diferentes patrones de forrajeo.

Una contingencia fuerte entre una respuesta instrumental y un reforzador esencialmente significa que la respuesta controla el reforzador, esto es, que el reforzador suceda depende de si ha ocurrido la respuesta instrumental. Los estudios acerca de los efectos de control sobre reforzadores han proporcionado la evidencia más amplia de la sensibilidad de la conducta a las contingencias respuesta-reforzador. La mayoría de la investigación se ha centrado en los efectos de control sobre la estimulación aversiva, esa se origino con los estudios pioneros de Seligman, overmier y Maier, quienes investigaron los efectos de la exposición a una descarga incontrolable en el aprendizaje posterior de escape-evitación en perros. El hallazgo más importante fue que la exposición a una descarga incontrolable dificultaba el aprendizaje posterior.

Contenido relacionado