4.1. Las claves de profundidad

Nuestra visión cotidiana está claramente configurada en tres dimensiones. El espacio visual tiene altura, anchura y profundidad.

La forma de abordar el procesamiento de la profundidad consiste en buscar en la escena bidimensional las claves, indicadores o indicios que permiten alcanzar una representación tridimensional.

Claves monoculares

Claves estáticas

Pueden ser de dos tipos: oculares y pictóricas.

A) Claves oculares.

Acomodación. Es un cambio en la forma del cristalino necesario para mantener la imagen del objeto focalizada sobre la retina.

Cuando el objeto se encuentra alejado del observador el cristalino tiende a disminuir el grosor y a hacerse más plano. Sin embargo, cuando un objeto se aproxima al observador, los rayos procedentes del mismo divergen a medida que se acercan al ojo.

En este caso el cristalino aumenta su convexidad aumentando de grosor y de esta forma del cristalino se lleva a cabo mediante la acción de los músculos ciliares cuya contracción provoca el aumento de grosor y cuya relajación lo disminuye.

Las investigaciones sobre el valor de la acomodación como indicador de distancia han mostrado que solamente es efectivo en distancias cortas, inferiores a los 2,5 metros.

El sistema visual calcula el tamaño de los objetos tomando en cuenta la información proporcionada por la acomodación.

Proporciona información sobre la distancia absoluta a la que se encuentra un objeto. La mayor parte de los indicadores monoculares de profundidad proporcionan información sobre la distancia relativa de los objetos señalándonos cual de dos o más objetos se encuentran más próximos a nosotros pero no nos informan de la distancia a la que esos objetos están de nosotros.

El conocimiento de la distancia absoluta a la que se encuentran los objetos es necesario para poder alcanzarlos con precisión y para moverse en su entorno sin tropezar con ellos.

B) Claves pictóricas.

Perspectiva lineal . En el estudio de la percepción visual, el término perspectiva lineal hace referencia a las relaciones existentes dentro de la escena visual que subyacen a ese conjunto de reglas y también en parte a la percepción de la distribución espacial.

Una de las reglas más básicas de la perspectiva lineal es la convergencia de paralelas según la cual las líneas paralelas en el espacio tridimensional se presentan en dos dimensiones por líneas que convergen hacia un único punto llamado punto de fuga. El punto de fuga está situado en la línea del horizonte de la superficie que sirve de punto de referencia para dividir el espacio visual en dos zonas, una superior y otra inferior. La línea del horizonte de una superficie es la línea que pasa por dos o más puntos de fuga de conjuntos de líneas paralelas que se extienden en la superficie.

La convergencia de paralelas propia de la perspectiva lineal nos permite entender la relación entre el puto de fuga y la orientación de los bordes de una superficie. Si se mide la orientación de un borde por referencia a un marco fijo del medio ambiente, entonces todos los bordes que tienen la misma orientación son paralelos ente sí y la proyección es un conjunto de líneas que convergen en un único punto de fuga. El punto de fuga de un borde puede concebirse como el término final de la proyección de un borde cuando se extiende infinitamente en la distancia.

Para casa orientación determinada de un borde existe un correspondiente punto de fuga y cada punto en el plano de proyección es el punto de fuga de un conjunto de bordes paralelos que tienen la misma orientación.

Esta relación entre punto de fuga y orientación de los bordes no varía aunque cambie el punto de observación; cada punto de fuga permanece fijo en su posición de correspondencia con las orientaciones fijas de los bordes en el medio ambiente.

Altura relativa . Generalmente aquellos objetos que se encuentran próximos a la línea del horizonte de una superficie bidimensional son percibidos como más lejanos. La potencia de la altura relativa como clave de profundidad o de distancia depende de la presencia de un marco de referencia que es la línea del horizonte. El efecto de profundidad se acentúa por la presencia de textura dentro del marco de referencia. En ausencia de un marco de referencia, el efecto de profundidad queda prácticamente anulado.

Perspectiva aérea . Hace referencia a los cambios en contraste y en color que experimenta la percepción de los objetos cuando se encuentran a gran distancia del observador. El contraste tiende a reducirse haciendo que la imagen de los objetos aparezca más borrosa debido a la dispersión de la luz, la lejanía de los objetos tiende a acentuar las tonalidades azuladas debidas también a que las longitudes de onda cortas son más fácilmente perturbadas por las partículas suspendidas en la atmósfera que las longitudes de onda largas.

Tamaño relativo . Si dos objetos son presentados en el campo visual simultáneamente o en próxima sucesión, aquel que produce una imagen retiniana mayor, parecerá estar más cerca.

Tamaño familiar . Experimentos que han utilizado objetos familiares para los participantes han puesto de manifiesto que si se conoce el tamaño real de un objeto, el tamaño de la imagen proyectada sobre el observador es un buen indicador de la distancia a la que se encuentra el objeto. El tamaño familiar es un ejemplo claro de la influencia que la experiencia puede tener sobre los procesos de percepción.

Gradiente de textura. Casi todas las superficies tienen una estructura que consta de unidades o elementos, relativamente homogéneos en tamaño y forma, distribuidos por la superficie con relativa regularidad. A la cualidad producida por este tipo de estructura se le da el nombre de textura. Por otra parte, podemos definir el término gradiente como la proporción en que una determinada propiedad cambia a los largo de un continuo. El gradiente de textura hace referencia al cambio gradual que la percepción de la textura de una superficie experimenta a medida que ésta se encuentra más alejada del observador.

Además de informar sobre la profundidad, el gradiente de textura también puede proporcionar información sobre otras características de la superficie, como su orientación en profundidad o su curvatura.

James Gibson , que formuló la aproximación ecológica al estudio de la percepción , consideró que el gradiente de densidad de textura es uno de los aspecto de la estimulación que mayor información proporciona una escala absoluta de distancia respecto a la que se puede medir toda otra distancia.

Sombreado y sombras . El término sombreado hace referencia a los cambios en el patrón de iluminancia que se produce como consecuencia de la variación en el ángulo que forman la luz que incide sobre una superficie y la superficie misma. Existen diferentes tipos de sombreado: - El sombreado especular : es el propio de superficies brillantes como un espejo y depende fundamentalmente de la posición del observador y de la dirección de la iluminación.

- El sombreado difuso o Lambertiano : es el propio de las superficies mate cuya reflectancia es igual en todas las direcciones. La cantidad de luz reflejada por cada punto de la superficie depende de su orientación respecto a la fuente de luz, siendo máxima en los puntos en que la luz incide perpendicularmente sobre la superficie. Por ello, cuando superficies de la misma reflectancia presentan ángulos diferentes respecto a la misma fuente de iluminación, pueden dar a lugar a bordes de iluminación.

El sombreado es un potente indicador de los aspectos volumétricos de las formas, en particular sus concavidades y convexidades.

Los objetos circulares iluminados en su parte superior y obscurecidos en su inferior son percibidos como convexos. En los oscurecidos en su parte superior e iluminados en su inferior son percibidos como una oquedad. Ramachandran ha puesto de manifiesto que el supuesto que parece realmente enraizado en nuestro sistema visual es el de la existencia de una sola fuente de luz. Nuestro sistema visual prefiere ver caras normales convexas aunque para ello tenga que asumir que la luz viene de abajo.

Una sombra es una zona de la escena a la que no llega la iluminación pro haber sido ésta bloqueada. La forma de la sombra depende de varios factores:

La proximidad de la fuente de iluminación.
Su dirección.
La forma del objeto que proyecta la forma.
El relieve de la superficie sobre la que es proyectada.
La posición relativa entre la fuente, el objeto y la superficie.

La sombra puede estar unida al objeto o separada del mismo. Las sombras unidas al objeto indican que el objeto está apoyado sobre la superficie.

Interposición . Los objetos que se encuentran más alejados pueden quedar total o parcialmente ocultos a un observador por la presencia de otros objetos interpuestos en la línea de visión.

Cuando un objeto aparece parcialmente encubierto, nuestro sistema visual tiende a percibir como más alejado al objeto tapado y como más cercano al objeto impuesto. Es uno de los indicadores más potentes de profundidad aunque se limita a proporcionarnos información ordinal sobre la distancia de los objetos en relación al observador. La interposición no nos informa de la magnitud de las distancias entre los objetos y el observador.

Claves dinámicas

Paralaje de movimiento

Cuando un observador se mueve en dirección lateral con respecto a su campo de visión, los objetos que se encuentran a distancias diferentes proyectan unas imágenes en la retina que se mueven en sentido y a velocidades diferentes. Podemos definir el paralaje de movimiento como el desplazamiento diferencial de las imágenes, proyectadas por distintos objetos, debido a un cambio lateral en la posición del observador y a la distancia relativa de los objetos con respecto al punto de fijación.

Los objetos más cercanos parecen desplazarse más lejos y a mayor velocidad mientras que para los más alejados el desplazamiento es menor y más lento. Sin embargo, el sentido del movimiento no depende únicamente de la distancia a la que se encuentran los objetos sino también de la posición del punto de fijación. Los objetos que están situados en una posición más cercana al observador que aquella en la que cae el punto de fijación, se mueven en sentido contrario al observador, mientras que los situados en una posición más alejada que el punto de fijación se mueven en el mismo sentido que el observador.

El paralaje de movimiento es una clave de profundidad muy efectiva a grandes distancias incluso cuando no están presentes otras claves de profundidad.

Flujo óptico

Para la clave de paralaje de movimiento, el sentido del movimiento para todos los puntos que se encuentran por delante del punto de fijación es contrario al sentido del movimiento del observador, mientras que el de los puntos que se sitúan por detrás del punto de fijación es igual que el del observador.

La velocidad se va haciendo menor a medida que las direcciones se aproximan al punto de fijación y aumentan a medida que se alejan del mismo.

Al acerarse a una superficie u objeto, se produce un fenómenos de expansión óptica consistente en que el punto de fijación permanece estático en la fóvea mientras que el resto de puntos en el campo visual divergen hacia su exterior en todas las direcciones a partir del punto de fijación y a una velocidad que es tanto mayor cuanto más alejados están del punto de fijación. Cuando la velocidad de expansión es alta, el patrón de expansión produce la impresión de que la superficie se echa encima del observador. Cuando el movimiento consiste en alejarse de un punto de referencia, el patrón que se produce es de contracción óptica en el que los puntos del campo visual tienden a converger hacia el punto de fijación.

El efecto de profundidad cinética

También los cambios en el patrón de estimulación producido por el movimiento de otro objeto pueden proporcionar información sobre la profundidad. El efecto de profundidad cinética de Wallach y O ́Connell mostraron que la fuente de iluminación L proyecta sobre la pantalla P la sombra del objeto en forma de T.

El observador O, situado por delante de la pantalla, sólo es estimulado por la sombra del objeto y sus transformaciones bidimensionales al rotar.

Este efecto demuestra que el sistema visual es capaz de recuperar la forma y el movimiento en profundidad de los objetos a partir de los cambios en longitud y en orientación de formas bidimensionales.

Las claves binoculares

Son aquellas que proporcionan información sobre la distancia combinando información procedente de cada uno de los ojos.

Convergencia binocular

Cuando fijamos la vista en un objeto, las líneas de visión de cada uno de los ojos convergen en el punto de fijación. Al ángulo formado por estas líneas con vértice en el punto de fijación se le llama ángulo de convergencia. Su tamaño varía en función de la distancia a la que se encuentra el punto de fijación. Si el objeto se aproxima a nosotros, el ángulo de convergencia tiende a hacerse mayor, y si el objeto se aleja, el ángulo de convergencia tiende a disminuir.

La convergencia binocular es una clave fisiológica porque el tipo de información que proporciona se refiere a los ajustes oculomotores que controlan la posición de los ojos.

El ángulo de convergencia puede ser utilizado por el sistema visual para determinar la distancia al punto de fijación. El sistema visual utiliza esa información, pero solamente para distancias cortas porque la variación en el ángulo de convergencia sólo tiene lugar en distancias no superiores a uno o dos metros. Más allá de los 3 metros de distancia la posición de los ojos no cambia por mucho que el objeto se aleje.

Normalmente la convergencia binocular actúa conjuntamente con la acomodación. A medida que un objeto se aleja, tanto la convergencia como la acomodación varían.

Al parecer, la información proporcionada por la acomodación del cristalino del ojo no tapado es suficiente para guiar al mecanismo de convergencia. Tanto la convergencia como la acomodación son claves útiles en distancias cortas y además tienen el valor añadido de proporcionar información sobre la distancia absoluta a la que se encuentra un objeto, cosa que pocas claves de distancia proporcionan.

La estereotipia

Es una clave que nos proporciona información acerca de la distancia relativa de los objetos sobre la base del desplazamiento lateral que la proyección de un objeto experimenta en las retinas de los dos ojos.

Conceptos fundamentales

Los puntos de cada retina sobre los que cae una proyección se llaman puntos correspondientes porque, si superpusiéramos la retina de un ojo sobre la retina del otro, los puntos coincidirían. En general, un punto “a” en retina derecha y un punto “b” en la retina izquierda son puntos correspondientes cuando ambos tienen la misma posición en su respectiva retina.

Cada punto de una retina su correspondiente punto en la otra. La estimulación de puntos correspondientes en las dos retinas provoca fusión binocular puesto que el objeto es visto como un único objeto.

Horópter: conjunto de puntos en el espacio visual que, cada una determinada fijación ocular, proyectan su imagen en puntos correspondientes de las dos retinas. Se define en relación al punto y por lo tanto cambia cuando cambia el punto de fijación.

Suponiendo que los ojos fueran esferas perfectas y que rotan en torno a ejes que solamente pasan por el punto nodal de cada ojo(*), el horópter longitudinal, que se define en el plano horizontal, está constituido por una circunferencia que pasa por el punto de fijación y por el punto nodal de cada ojo. Esta circunferencia suele conocerse como circunferencia de Vieth-Müller. En el plano vertical, el horópter vertical está definido por la recta perpendicular al plano de visión.

(*) El punto nodal es el punto en que el rayo principal de luz proveniente de un objeto corta al eje óptico.

El horópter vertical tiende a estar inclinado en la dirección de la línea de visión, alejándose del observador por encima del punto de fijación y acercándose a él por debajo del punto de fijación. El horópter longitudinal tiende a quedarse en una posición próxima a la circunferencia de Vieth-Müller.

Disparidad binocular: cuando un punto en el espacio visual no proyecta su imagen en puntos correspondientes de las dos retinas, las imágenes del objeto en cada uno de los dos ojos resultan tanto más diferentes cuanto mayor es el desplazamiento lateral de una proyección respecto de a otra. Este desplazamiento relativo de las dos proyecciones recibe el nombre de disparidad binocular.

La ligera diferencia entre la visión de la escena proporcionada por el ojo derecho y por el izquierdo está ocasionada por las distintas proyecciones que reciben debido a la separación existente entre ellos.

El fenómeno de la disparidad binocular es parecido al fenómeno de paralaje de movimiento. No obstante se diferencian en que el desplazamiento de la imagen en la disparidad binocular está fijado por la distancia interocular, mientras que en la clave de paralaje de movimiento el desplazamiento de la imagen depende de la amplitud del movimiento lateral que realice el observador. Además, en la disparidad binocular el desplazamiento de las imágenes es simultáneo mientras que en la clave de paralaje de movimiento el desplazamiento de las imágenes es sucesivo.

La disparidad binocular puede proporcionarnos información respecto a la posición de los objetos en el espacio tridimensional.

El sentido de la disparidad nos informa de la posición del objeto respecto al punto de fijación.

Tiene dos puntos nodales, pero como la distancia entre ellos es muy pequeña, son tratados como un solo punto.

En general, el desplazamiento de los objetos más próximos que el punto de fijación se produce en sentido contrario al desplazamiento de las imágenes producido por nuestro abrir y cerrar de ojos, y por ello se le da el nombre de disparidad cruzada. Por el contrario, los objetos más alejados, de nosotros que el punto de fijación se desplazan en el mismo sentido que el del desplazamiento de las imágenes y por ello la disparidad que producen se denomina no cruzada.

Finalmente, la magnitud del desplazamiento es un indicador cuantitativo de la distancia a la que se encuentra un objeto: a medida que un objeto se aleja del punto de fijación aproximándose al observador, su disparidad cruzada aumenta, y a medida que un objeto se aleja del punto de fijación alejándose también del observación, su disparidad no cruzada aumenta.

El aumento de la disparidad cruzada está asociado con una aproximación del objeto al observador y el aumento de la disparidad cruzada está asociado con un alejamiento del objeto respecto al observador. Y, a la inversa, la disminución de la disparidad cruzada está asociada con un alejamiento del objeto respecto al observador mientras que la disminución de la disparidad no cruzada está asociada con un acercamiento del objeto al observador.

Puede producir estereoscopia o puede producir imágenes dobles que ponen en macha un proceso de rivalidad binocular. Cuando la disparidad es pequeña, las imágenes de los dos ojos se fusionan en una sola pero situada a una distancia del observador diferente de la distancia que corresponde al horópter. Esta diferencia en profundidad es lo que se denomina estereoscopia.

Podemos definir estereoscopia como la percepción de la profundidad producida por la disparidad binocular. Dependiendo de la dirección de la disparidad los objetos aparecen por delante o por detrás del horópter longitudinal. La disparidad cruzada produce la percepción del objeto por delante del horópter mientras que la disparidad no cruzada produce la percepción del objeto por detrás del horópter.

Procedimientos estereoscópicos

Los estereogramas son pares de imágenes prácticamente iguales pero que difieren en el desplazamiento lateral de sus elementos. Cada imagen del par recibe el nombre de media-imagen. Cuando cada media-imagen estimular un ojo diferente al mismo tiempo, la imagen fusionada produce una sensación de profundidad.

Si cada media-imagen es presentada simultáneamente a un ojo diferente, se producirá la segregación de la imagen fusionada en tres planos diferentes de profundidad.

Hasta los años 60, se pensaba que la percepción estereoscópica de la profundidad era la consecuencia de la disparidad retiniana del contorno y de los bordes de cada media-imagen.

El problema de la correspondencia

Determinar qué puntos o partes de la imagen de un ojo corresponden a qué puntos o partes de la imagen del otro ojo. Este es el llamado problema de la correspondencia.

La gran revolución es el estudio de la estereoscopia se produjo cuando

Bela Julesz demostró que se podía producir estereoscopia utilizando estereogramas de puntos aleatorios.

Estereogramas de puntos aleatorios

Consisten una pareja de medias-imágenes, cada una de las cuales consiste en miles de puntos colocados aleatoriamente, cuyo desplazamiento lateral produce una fuere sensación de profundidad cuando las dos medias-imágenes se ven estereoscópicamente.

Los estereogramas de puntos aleatorios demostraron que la forma y los bordes de la imagen monocular no son necesarios para guiar la resolución del problema de la correspondencia. Es suficiente una mera disparidad de puntos para que se produzca la segregación de una imagen o de una escena en diferentes planos de profundidad. Estos estereogramas también ponen de manifiesto que la estereoscopia no es un resultado tardío en el procesamiento de información visual, que necesite un procesamiento previo de la forma de las imágenes monoculares. Más bien, la estereoscopia aparece como un proceso que tiene lugar relativamente pronto y que incluso proporciona información sobre la forma de los objetos.

Características de la estereoscopia humana

Bajo las mejores condiciones perceptivas, la agudeza estereoscópica se encuentra en el rango de los 2 a los 6 segundos de ángulo. También se ha encontrado que la sensibilidad es mayor para la disparidad cruzada que para la no cruzada. La sensibilidad estereoscópica depende de factores espaciales tales como la excentricidad de los estímulos y la distancia entre los estímulos y el punto de fijación. Para la excentricidad y la distancia, la sensibilidad disminuye cuando aumentan sus valores.

La magnitud de disparidad dentro de la cual se produce estereoscopia está limitada a un área en torno al horópter que se conoce con el nombre de área de fusión Panum. El tamaño de esta área es menor en el entorno del punto de fijación que en la periferia.

La interpretación clásica del área de Panum ha considerado que el área representaba propiedades fijas de una región determinada de la retina.

Hoy sabemos que esta concepción es errónea pues tanto el tamaño como la forma del área de Panum dependen tanto de las características del estímulo como del procedimiento utilizado para medirla.

Mecanismos fisiológicos de la estereoscopia

Neuronas en la corteza visual primaria (V1) que respondía de forma selectiva a la disparidad binocular. Con posterioridad se han encontrado células selectivas a la disparidad en otras áreas de la corteza cerebral como V2 y V3. Estas neuronas muestran alta tasa de disparo cuando un determinado estímulo incide en puntos de las dos retinas que no son correspondientes. Unas células responden preferentemente a niveles de disparidad bajos, mientras que otras lo hacen a niveles de disparidad altos. Unas responden a la disparidad cruzada mientras que otras lo hacen a la no cruzada.

DeAngelis Cumming y Newsome descubrieron que en el área temporal medial (MT) existía una clara organización funcional de la estereotipia que presentaba tres características fundamentales:

Las neuronas selectivas a la disparidad estaban organizadas en columnas de acuerdo con valores particulares de disparidad, las neuronas que mostraban preferencia para una determinada disparidad binocular formaban parte de la misma columna.
Las neuronas selectivas a la disparidad estaban agrupadas a lo largo de MT formando como una especie de parches intercalados con otros que no mostraban selectividad a la disparidad.
En los parches con buena selectividad a la disparidad, la disparidad preferida variaba de forma gradual y continua de columna a columna a lo largo de la superficie de MT.

Estos resultados indicaban que el área MT contenía un mapa de disparidad binocular. Las neuronas pertenecientes a este mapa estaban implicadas en la percepción de la profundidad y para ello estimularon eléctricamente grupos de neuronas mientras los monos realizaban una tarea de discriminación de la profundidad utilizando estereogramas de puntos aletarorios estáticos.

Los resultados mostraros que la microestimulación provocaba un sesgo sistemático en los juicios perceptivos de los monos en la dirección de la disparidad preferida por las neuronas que eran estimuladas. Parece claro que en el área MT se originan señales relevantes para la percepción de la profundidad estereoscópica.

Rivalidad binocular

La disparidad binocular, siempre que no sobrepase la magnitud indicada por el área de Panum, produce estereoscopia. Cuando la disparidad es grande y sobrepasa los valores de dicha área se producen imágenes dobles aunque por lo general la experiencia consciente de las dos imágenes, (diplopía) no llega a producirse. La razón de que no se produzca se debe a que las imágenes dobles provocan un fenómeno de rivalidad binocular en el que ambas imágenes parecen competir por acceder a la consciencia. Cuando los estímulos son pequeños, produciendo un ángulo visual igual o menos a un grado, la rivalidad es total de forma que una imagen domina sobre la otra durante un periodo de tiempo que oscila entre 1 y 4 segundos y durante ese periodo es la única imagen percibida conscientemente. Después la experiencia consciente cambia y la imagen que antes estaba suprimida accede a la consciencia y la que se percibía es suprimida.

Cuando los estímulos son grandes, la rivalidad binocular produce una imagen consciente compuesta de trozos o partes pertenecientes a cada una de las dos imágenes.

La visión binocular normal implica tanto estereoscopia como rivalidad binocular. La estereoscopia fusiona los puntos que se encuentran dentro del área de Panum y la rivalidad binocular resuelve la competición entre imágenes dobles.

Relación ente las claves de profundidad

La ausencia de una clave no es un obstáculo para que el sistema visual pueda obtener una adecuada adaptación a la situación estimular tridimensional.

Las distintas claves pueden relacionarse entre sí de tres formas diferentes: dominancia, compromiso e interacción.

Dominancia

Se produce dominancia de una clave sobre otra cuando el sistema visual ignora la información proporcionada por una clave a favor de la proporcionalidad por otra clave de profundidad. Un ejemplo conocido es la habitación de Ames. Se trata de una habitación distorsionada de forma trapezoidal, el observador sólo puede mirar dentro de la habitación a través de un orificio situado estratégicamente en una de las paredes de la habitación. Desde ese punto de vista, la habitación parece rectangular a pesar de que no lo es.

El tamaño de las personas queda determinado por el tamaño de la imagen proyectada en la retina.

Compromiso

No siempre se produce el predominio de una clave respecto de otra. A veces, la resultante del conflicto entre las informaciones proporcionadas por las distintas claves es un valor intermedio entre los valores de profundidad proporcionados por cada clave.

El grado de profundidad percibida era el resultado de sumar la información proporcionada por cada una de las claves.

Parece como si la información proporcionada por cada clave fuera independiente de la información proporcionada por las otras y el resultado final se produjera sin ningún tipo de interacción entre las claves.

Interacción

La investigación de integración entre claves de profundidad casi se ha limitado a constatar la existencia de los tres tipos de procesos.