VOZ CLÍNICA v2.3 – Laboratorio – CANA SAN MARTIN

CANA SAN MARTIN VOZ CLÍNICA V2_3 Release

CANA SAN MARTIN VOZ CLÍNICA es un software clínico orientado a tareas de análisis acústico de voz, evaluación perceptual, anotación temporal, seguimiento longitudinal y generación de informes. El objetivo del software es convertir muestras de voz (sostenida y habla conectada) en indicadores cuantitativos y gráficos interpretables para tomar decisiones clínicas informadas: caracterización vocal objetiva, evaluación perceptual estandarizada, trazabilidad entre sesiones y entregables documentales.

La herramienta está organizada como un conjunto de módulos que cubren el flujo completo de una evaluación vocal clínica. En la interfaz se observan pestañas como Paciente y archivos, Anamnesis y escalas, Editor central, Voz sostenida, TextGrid clínico, Habla conectada, Articulación y prosodia, Seguimiento y grupos y Anamnesis detallada, cubriendo el recorrido desde la carga del audio hasta la exportación del informe final.

El software fue concebido con un enfoque flexible en la entrada: permite trabajar tanto con grabación directa desde micrófono como con análisis de archivos WAV previamente capturados. Para mejorar la confiabilidad del proceso y evitar reportes basados en tomas deficientes, el sistema realiza una validación automática de calidad sobre cada archivo. En esa validación se incluyen la detección de saturación (clipping), la estimación de relación señal-ruido (SNR), el control de nivel RMS y advertencias cuando la toma presenta indicadores de baja confiabilidad. La filosofía es práctica: el software puede procesar la señal incluso si la SNR es baja, pero deja constancia explícita de las advertencias tanto en la interfaz como en el reporte final.

Como salida, el sistema está orientado a entregar resultados listos para uso académico y clínico: por cada paciente genera una carpeta de trabajo identificada por código, y produce un informe PDF multipágina, archivos JSON con las anotaciones temporales y la ficha clínica, y figuras PNG de alta resolución que documentan los análisis de voz sostenida, habla conectada y articulación. Esto permite trazabilidad, auditoría interna del cálculo y entrega estandarizada a terceros (docentes, supervisores clínicos, instituciones educativas o documentación de tesis).

Flujo de trabajo: de la grabación al informe

El flujo de trabajo fue concebido para llevar al usuario desde la creación del paciente hasta la exportación de un reporte en un proceso lineal y reproducible. En la práctica, el software se organiza en etapas consecutivas. En primer lugar, se define la identificación del paciente y la sesión (código, datos demográficos, fecha y tipo de sesión). En segundo lugar, se ejecuta la carga de anamnesis y escalas perceptuales, cuyos campos se sincronizan automáticamente con la ficha clínica detallada. En tercer lugar, se realiza la inspección y eventual recorte del audio mediante el editor central, que presenta forma de onda, espectrograma y overlays de F0, intensidad y formantes. En cuarto lugar, el sistema ejecuta el cálculo de métricas sobre voz sostenida y habla conectada, y permite anotar capas temporales compatibles con Praat. Finalmente, se generan los entregables, que incluyen el PDF del informe, los JSON de anotación y las figuras PNG.

Métricas calculadas: parámetros acústicos objetivos

El cálculo se realiza sobre muestras de voz sostenida y también sobre habla conectada. Sobre voz sostenida, el software entrega los indicadores fundamentales de caracterización glótica y espectral, incluyendo F0 (media, desviación, mínima y máxima), jitter local, shimmer local, HNR (Harmonic-to-Noise Ratio según Boersma) y CPPS (Cepstral Peak Prominence Smoothed, con la mejor correlación acústica-perceptual reportada para grado global de disfonía según Maryn y Weenink, 2015).

Sobre habla conectada, el sistema calcula métricas temporales y prosódicas: tasa silábica (cuando existe capa de anotación «Sílaba»), nPVI, rango tonal en semitonos, porcentaje de actividad sonora, duración y conteo de pausas e intensidad media. En el módulo de articulación, el software mide F1 y F2 en puntos seleccionados y grafica el espacio vocálico del hablante.

Como complemento, el sistema incluye pruebas rápidas tradicionales: Tiempo Máximo de Fonación (TMF) para /a/, /i/, /u/, cociente S/Z según Eckel y Boone (1981), y la variante cociente S/E cuando la articulación de /z/ resulta inadecuada. Todos los valores numéricos de estas pruebas quedan vinculados entre la pestaña de escalas y la ficha clínica detallada, evitando doble carga.

Escalas perceptuales: GRBAS y RASATI

El software incluye dos escalas perceptuales en paralelo. La escala GRBAS (Hirano, 1981) aporta los cinco parámetros clásicos de la evaluación perceptual de disfonía: Grado global, Aspereza, Soplo, Astenia y Tensión, cada uno puntuado de 0 a 3. La escala RASATI (Pinho y Pontes, 2002) complementa a GRBAS con seis parámetros: Ronquera, Aspereza, Soplosidad, Astenia, Tensión e Inestabilidad, esta última ausente en GRBAS y particularmente útil para documentar temblor vocal, quiebres, diplofonía, disfonía espasmódica y voz parkinsoniana.

Ambas escalas se completan de manera independiente y coexisten en el mismo informe. Los valores se sincronizan en tiempo real entre la pestaña de escalas y la ficha clínica detallada, asegurando consistencia documental y evitando discrepancias entre secciones del mismo informe.

Ficha clínica detallada con autocompletado

La ficha clínica integra 97 campos organizados en once secciones: datos del paciente, antecedentes generales, antecedentes fonatorios, síntomas vocales, examen anatómico mio-funcional, examen respiratorio, examen vocal (características acústicas), GRBAS, RASATI, examen del habla y conclusiones. Cada campo tiene un indicador de origen: AUTO para los valores que el software mide directamente desde el audio, MIXED para valores medidos que requieren revisión clínica, y MANUAL para campos que solo pueden completarse a mano tras examen del paciente.

El botón Completar desde audio rellena los campos AUTO y MIXED con los resultados de los análisis corrientes, respetando los datos cargados previamente a mano. La ficha completa queda persistida como archivo JSON dentro de la carpeta del paciente y se incluye integralmente en el informe PDF de salida.

Seguimiento longitudinal

Cada sesión de un paciente queda automáticamente registrada como un punto en la serie temporal del seguimiento, tomando como referencia la fecha de sesión. El módulo de seguimiento permite graficar la evolución de cualquier métrica registrada (F0, jitter, shimmer, HNR, CPPS, TMF, rango tonal, parámetros GRBAS o RASATI, entre otras) y comparar contra valores de referencia o contra un grupo control previamente cargado. La serie puede exportarse como CSV para análisis externos.

Reportes y trazabilidad: PDF, JSON y figuras

Cada paciente genera una carpeta de trabajo identificada por código, dentro de la cual se guardan los entregables de todas sus sesiones. El informe PDF integra los datos del paciente, la anamnesis y escalas, los resultados de voz sostenida, la anotación TextGrid, las métricas de habla conectada, el espacio vocálico, el seguimiento longitudinal y la ficha clínica detallada. Cada página del informe presenta marca de agua diagonal con la leyenda de licencia académica y pie institucional.

En paralelo al PDF, el software exporta archivos JSON con las anotaciones temporales sobre el audio (compatibles con el formato TextGrid de Praat mediante exportación explícita) y figuras PNG a 300 DPI que documentan los análisis individuales. Este enfoque permite trazabilidad completa: el reporte final tiene respaldo en archivos de datos y en figuras exportadas de manera automática, manteniendo consistencia entre lo visualizado en pantalla y lo entregado en la documentación.

Requisitos y descarga

El software está compilado como ejecutable único para Windows 10 y 11 (64 bits). No requiere instalación: se descarga y se ejecuta con doble clic. La primera ejecución puede activar el aviso de Windows SmartScreen por no estar firmado con certificado comercial; la acción requerida es «Más información → Ejecutar de todas formas».

Puedes descargar en el siguiente link:
https://www.mediafire.com/file/6hzwyq0e130n9zl/CANA_SAN_MARTIN_VOZ_CLINICA.zip/file

Windows 10/11 version 2_3
User Manual Spanish

El uso de este software de manera gratuita está limitado a estudiantes de áreas afines a la fonoaudiología y a la salud vocal. Para su uso profesional deberá solicitar permiso al desarrollador.