Investigación cualitativa asistida por ordenador y por modelos de lenguaje IA

Hay algunas herramientas de código abierto que han surgido en el último tiempo que permiten ampliar las aproximaciones al análisis de datos cualitativos de tipo textual. También se observa que el flujo de trabajo de los investigadores que analizan datos cualitativos está moviéndose hacia la asistencia más intensa de modelos de lenguaje. Por ejemplo, la transcripción o traducción asistida mediante Whisper o la tematización o codificación asistida por modelos de lenguaje mediante Qualcoder + Ollama que permite utilizar modelos grandes de lenguaje (LLM) de manera más sobria, local y segura. Hoy quisiera mencionar mis experiencias de uso con estas herramientas desde un punto de vista puramente técnico.

Para el análisis temático y codificación he podido utilizar QualCoder 3.7, un programa disponible gratuitamente y bajo licencia GNU de software libre. Puedes acceder a la página del creado en inglés en este enlace https://qualcoder.wordpress.com/ Su instalación Windows no es complicada pero en linux requiere conocimientos de uso de la consola.

Qualcoder 3.7 con IA

Este programa permite categorizar, tematizar o codificar de manera inductiva o deductiva, y su interfaz permite trabajar desde la teoría fundamentada. Cuenta con interesantes opciones para exportar los códigos, citas y también la nueva versión proporciona algunas tablas estadísticas. La interfaz es multididioma, entre los cuales se cuenta el inglés y el español. El programa también tiene funciones interesantes para agrupar múltiples documentos por casos. También se puede codificar directamente sobre audio y video, aunque estas opciones no las he probado. Es posible exportar a otros formatos, como por ejemplo ODT, txt o XMLX; la exportación se puede parametrar según las categorías, memos, códigos o citas y es posible filtrar por casos o documentos. El programa también permite la codificación compartida pero de manera alternada, no simultánea. Otra opción interesante es que también permite visualizar un árbol de códigos y categorías para jerarquizar, por ejemplo, y establecer relaciones posibles. Otra novedad también es la posibilidad de integrar al flujo de trabajo la colaboración de un modelo de lenguaje de IA para asistir la codificación. Sin embargo, esto requiere algunos conocimientos básicos para configurar una API y posibles riesgos de transmisión de datos. También es posible utilizar con un modelo de lenguaje que funcione de manera local con OLLAMA (ver https://ollama.com/), lo que puede requerir un ordenador con requerimientos de RAM abundantes, según el modelo a instalar. Ollama ofrece una gran variedad de grandes modelos de lenguaje que pueden emplearse según la disponibilidad de recursos y los intereses de la investigación.

interfaz de QualCoder 3.7

El programa cuenta con documentación en español, en inglés y otros idiomas que permite aprender rápidamente su utilización, y su interfaz me pareció muy intuitiva. Por ejemplo, recomiendo dar una mirada al video tutorial, en inglés, que explica el uso de la versión Qualcoder 3.5 https://www.youtube.com/watch?v=wj5fY4F5Jxo

Una buena introducción en español se encuentra en este artículo y video en Español. Importante poner atención a como guardar un proyecto y compartirlo con otros usuarios. https://gescap.org/tutorial-qualcoder-creacion-de-proyecto-carga-de-archivos-de-texto-creacion-de-codigos-y-creacion-de-citas/

Importante tener en cuenta que integrar la asistencia de grandes modelos de lenguaje, algoritmos y otros recursos conocidos como inteligencia artificial requiere también una reflexión ética y onto-epistemológica sobre por ejemplo la posición de la autoría, la transparencia, los sesgos de los algoritmos utilizados, los riesgos de fugas en la privacidad.

El uso de Whisper en la transcripción automática de audio

Whisper es un modelo de lenguaje especializado en el reconocimiento de voz, transcripción y traducción que puede formar parte del flujo de trabajo de investigaciones que utilicen audio producido a partir de entrevistas o de otro material audiovisual. El modelo ha sido creado por OpenAI. La ganancia de tiempo en el trabajo de investigación es importante. Sin embargo, el reconocimiento de voz tiene ciertos límites técnicos y puede crear errores y por tanto requiere una supervisión humana en una fase de corrección.

Este modelo requiere el uso de comandos escritos en consola y su la explicación de cómo instalarlo en Linux o Windows está en esta página. Su instalación no es compleja, los servicios informáticos de las Universidades pueden fácilmente crear un servidor dedicado y mutualizada a bajo costo. Mi experiencia con Whisper ha sido principalmente a través de un servidor dedicado en la Universidad donde trabajo con resultados que dependen a veces del tipo de grabadora utilizada. Los mejores resultados los he obtenido con la grabadora H1n configurada para guardar audio en MP3.

Para instalarlo puedes hacerlo con el siguiente comando:

pip install -U openai-whisper

En tu ordenador local, una vez instalado, puedes usarlo con el siguiente comando desde el terminal o consola:

whisper audio.mp3 --language Spanish --model small --output_format txt

Puedes cambiar el modelo pero ocupa más recursos, cuestión no menor. Aquí les comparto una tabla con los requisitos mínimos para utilizar Whisper según OpenAI para cada modelo de lenguaje utilizado en un ordenador personal. Whisper Large da mejores resultados con menos errores de reconocimiento.

ModeloProcesador (CPU)Tarjeta gráfica (GPU)RAM recomendadaEspacio en disco libre
tiny4 núcleosNo necesaria8 GB2–3 GB
base4–6 núcleosNo necesaria8–16 GB3–5 GB
small6 núcleosOpcional (4–6 GB VRAM)16 GB5–8 GB
medium8 núcleosRecomendada (≥8 GB VRAM)16–32 GB8–10 GB
large8–12 núcleosMuy recomendada (≥12 GB VRAM)32 GB10–15 GB

Miguel Stuardo-Concha

Miguel Stuardo Concha es profesor e investigador actualmente vinculado a la Universidad CY Cergy París, como director de la formación Licencia Profesional Trilingüe Comercio ecoresponsable y desarrollo sustentable. Doctor en Educación y Máster en Calidad y Mejora de La Educación por La Universidad Autónoma de Madrid (UAM). Profesor de Castellano y Comunicación y Licenciado en Educación en la Universidad de La Frontera, Chile. Investiga sobre eco-responsabilidad, mejora escolar, educación y justicia social, acogida de estudiantes migrantes, investigación libre y abierta y enseñanza del español como segunda lengua.

https://orcid.org/0000-0003-2617-0035


Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

This site uses Akismet to reduce spam. Learn how your comment data is processed.