Programas concurrentes y estimulación aversiva

Conducta de elección

La investigación de laboratorio sobre la denominada conducta de elección se ha llevado a cabo principalmente mediante el análisis del comportamiento de los sujetos ante programas de reforzamiento concurrentes (dos o más programas simples disponibles a la vez)

Desde los primeros trabajos en esta línea se comprobó que la elección de los sujetos, medida como la localización de sus respuestas en una u otra opción, en función de la frecuencia relativa de reforzamiento de cada una de las alternativas disponibles.

Los resultados de estos experimentos llevaron a definir la denominada Ley de Igualación: (B1/B2) = (r1/r2), donde 1 se refiere a una de las alternativas y 2 al sumatorio, B son las elecciones, y r el valor del reforzador (frecuencia, principalmente, aunque también puede ser magnitud o calidad).

Elección y reforzamiento negativo

Baum comprobó cómo se ajustaba la Ley de Igualación a la conducta controlada por escape, usando descargas como evento aversivo y el tiempo de estancia en una localización de la caja como conducta de elección. El experimento consistió en reforzar con 2’ de tiempo fuera y la desactivación de una descarga de 7-mA a 4 palomas por situarse en el punto A o en el B de la caja. Cada punto aplicaba el reforzamiento bajo un programa IV diferente que fue variándose: 0.5’-8’, 0.5’-4’, 1’-2’, 2’-2’, 4’-2’, 8’-2’, 8’-1’, 8’- 0.5’. El ajuste de la elección de los sujetos a la frecuencia de reforzamiento de cada alternativa fue aumentando a lo largo del experimento, siendo los datos de las últimas cuatro semanas los más útiles para comparar los resultados con los de experimentos anteriores con reforzamiento positivo. Se comprobó que la reducción de la tasa de refuerzo negativo funcionaba de la misma forma que la reducción de reforzamiento positivo.

No obstante, esta conclusión sólo es apoyada por dos de las cuatro palomas, ya que el resto mostraron elecciones contrarias consideradas por los autores como aberrantes.

Hutton, Gardner y Lewis (1978) entrenaron a tres palomas a responder a dos teclas mediante reforzamiento positivo, para después mantener esa respuesta en un programa concurrente, primero sin y luego con periodos de descarga. La fase experimental empezó con un programa concurrente IV1’- IV1’ de 1 minuto sin descarga como reforzador, y luego continuó a través de 8 condiciones en las que se variaba la frecuencia de reforzamiento de cada alternativa (0.33, 0.11, 0.33, 1.00, 3.00, 9.00, 3.00). Los resultados mostraron un importante ajuste a la Ley de Igualación en función de la frecuencia relativa de reforzamiento negativo de cada alternativa. Aunque este ajuste no fue perfecto, al igual que en ciertas preparaciones con reforzamiento positivo (Myers y Myers, 1977), ya que se observó cierta infraigualación, probablemente por la baja discriminabilidad entre pequeñas diferencias en las frecuencias.

La replicación de estos resultados con ratas conlleva una problemática añadida para conseguir que el sujeto emita alguna operante mientras es expuesto a la descarga, ya que la respuesta típica de esta especie frente a este tipo de estímulos es la parálisis.

Elección y castigo

El efecto del castigo en programas concurrentes no ha sido tan estudiado como el del reforzamiento, aunque se han realizado algunos trabajos que indican que los sujetos son capaces de ajustar su elección a ciertas características del castigo.

Holz comprobó que, aunque la tasa de respuesta general decrece (una vez se ha adquirido por reforzamiento positivo), la tasa relativa se ajusta a la frecuencia relativa de castigo en cada alternativa.

Deluty ( llevó a cabo un experimento en el que entrenó a tres ratas a presionar la palanca mediante una consecución de programas concurrentes IR-IR (Intervalo aleatorio, similar al IF pero con un grado de probabilidad del refuerzo), pasando de 15’’-15’’ a 30’’-30’’, 1’-1’ y terminando en 1.5’-1.5’, intervalo que se siguió usando para mantener la respuesta. Tras este entrenamiento se añadió a cada alternativa otro programa IR pero de castigo. De esta manera, cada alternativa ofrecía la misma frecuencia de reforzamiento pero diferente de castigo. Los resultados mostraron que el incremento de la tasa relativa de castigo en una alternativa reducía la tasa relativa con la que era elegida. Se encontraron efectos muy similares usando programas múltiples en lugar de programas concurrentes

Conducta auto-controlada e impulsiva

La conducta auto-controlada, en contraposición a la conducta impulsiva, se ha concebido tradicionalmente como la elección de la alternativa con mayor valor relativo de reforzamiento pero más demorada. Esto implica que se han utilizado programas concurrentes (con dos componentes, principalmente) en los que se ha manipulado el tiempo entre la emisión de la respuesta y la aparición de la consecuencia (demora del reforzamiento), y el valor del reforzador (en cantidad, frecuencia, duración o calidad), es decir, mediante contingencias de reforzamiento positivo. Se considera, por tanto, comportarse de manera impulsiva la elección de la alternativa con un reforzamiento de menor valor relativo pero más inmediato.

El uso o no de estimulación aversiva no afecta a la conceptualización de ambos comportamientos, siempre que los componentes del programa apliquen un procedimiento de reforzamiento. En concreto, el uso de procedimientos de reforzamiento negativo conllevaría que la conducta impulsiva o auto-controlada sería una conducta de escape (o evitación), pero, de la misma forma, se consideraría como impulsivo elegir el escape del evento aversivo con menor valor relativo (menor tiempo de desaparición del evento aversivo, menor reducción de la intensidad del evento aversivo, etc.) pero más inmediato. Gran parte de los estudios que han evaluado este tipo de comportamientos se han realizado con humanos y usando ruidos molestos como evento aversivo, encontrando una mayor proporción de elecciones impulsivas.

Cuando el procedimiento usado es de castigo, sin embargo, se hace necesario un cambio en la consideración del papel de la demora. Se consideraría una respuesta impulsiva la elección del castigo con mayor valor (intensidad o duración) pero más demorado, mientras que elegir el castigo más leve e inmediato se consideraría un comportamiento auto-controlado.

En un estudio pionero, evaluó la conducta de cuatro ratas expuestas a una situación de autocontrol que involucraba procedimientos de castigo. En el primer experimento mantuvo constante la intensidad de la descarga (0.3 mA) y su duración (1.0’’) para ambas alternativas variando su demora de aparición: 30’’-30’’, 30’’-40’’, 40’’-30’’, 50’’-5’’, 5’’-50’’, 20’’-5’’, 5’’-20’’, 20’’-10’’, y 10’’-20’’. No se encontró ajuste a la Ley de Igualación en ningún caso, los sujetos siempre eligieron la alternativa más demorada (impulsiva).

En el segundo experimento, sin embargo, se manipuló la duración de la descarga. Los sujetos eligieron de manera consistente las alternativas con menor duración de descarga, además, se observó una considerable infraigualación. En el tercer y último experimento se manipuló tanto la demora como la duración de la descarga (estudio de autocontrol). La alternativa 1 ofrecía siempre 1’’ de descarga, mientras que la 2 ofrecía 2’’.

Los resultados mostraron como la preferencia por la alternativa 1 (1’’ de descarga) iba aumentando en función del aumento de la demora. Es decir, cuánto mayor era la demora mayor era el número de elecciones auto-controladas.

Contenido relacionado