Desarrollo de una herramienta interactiva para comparación forense de voz desde una perspectiva fonética

Área

II. Ciencias Físico Matemáticas y de las Ingenierías

Síntesis

Actualmente no existe un consenso entre los expertos que realizan comparación forense de voz sobre el mejor método para el análisis de una muestra de voz. Mientras algunos coinciden en que es mejor abordarlo desde un punto de vista más lingüístico realizando un análisis auditivo fonético y/o acústico fonético, otros defienden el uso de sistemas automáticos de comparación forense de voz que son ajenos al sesgo cognitivo. En este proyecto se ha planteado la posibilidad de desarrollar una herramienta que permita combinar ambos enfoques y que sea accesible para cualquier usuario que desee analizar una muestra de voz. Además, resulta de especial interés que los resultados que se generen automáticamente estén basados en valores poblaciones del dialecto mexicano, lo cual contribuye al desarrollo de tecnología forense específica para México.

Así, el objetivo de este proyecto consiste en desarrollar una herramienta interactiva para realizar comparación forense de voz, que tome en cuenta la variabilidad articulatoria y acústica de los fonemas vocálicos debido a factores fonéticos contextuales, y que permita emitir resultados probabilísticos en términos de un Likelihood ratio (LR) seleccionando una población relevante. El LR se expresa como la probabilidad de encontrar la similitud o no similitud entre las muestras con base en la hipótesis del Ministerio Público que plantea que las muestras provienen del mismo hablante, frente a la hipótesis de la defensa que plantea que provienen de distintos hablantes. La población relevante es aquella base de datos a partir de la cual se construye un modelo de la distribución de las propiedades acústicas medidas en las grabaciones que la conforman. Este modelo es el que se utiliza para calcular el denominador del LR que indica la tipicidad de la característica. Es decir, la probabilidad de obtener las propiedades acústicas medidas en la grabación dubitada si hubiera sido producida por cualquier otro hablante.

El tipo de estudio que se llevará a cabo será de tipo experimental, incluyendo el desarrollo de una herramienta que permitirá reproducir la metodología propuesta en este proyecto para nuevos datos. El objeto de estudio serán los segmentos vocálicos de un conjunto de grabaciones de hablantes mexicanos de diferente género, nivel educativo y edad; así como diferentes condiciones técnicas que son las que comúnmente se presentan en las grabaciones de audio forense.

Las variables que se estudiarán serán los parámetros acústicos de frecuencia fundamental y los cuatro primeros formantes vocálicos. Además, se evaluará la extracción de las variables en diferentes puntos del segmento vocálico.

Una vez definido el punto de medición de los parámetros acústicos que mejor describa el conjunto de datos se implementarán dos modelos desarrollados por Rose et al. (2004) y Morrison (2011). Los dos modelos tienen la característica de ser multivariantes, es decir, permiten analizar varias mediciones por muestra. La diferencia entre ambos es que, mientras el primero asume una distribución normal de los datos, el segundo no. Ambos modelos evalúan la evidencia en términos probabilísticos generando un valor de Likelihood Ratio (LR), lo cual permite contrastar de manera cuantitativa la similitud de las grabaciones y así obtener mayor certeza.

Para la implementación de modelos y el desarrollo de la herramienta interactiva se utilizará la plataforma Anaconda que es una herramienta de gestión de paquete de distribución libre de los lenguajes de programación Python y R; así como la paquetería Shiny del lenguaje estadístico R project.

Finalmente, se generará una herramienta interactiva que permita comparar dos grabaciones previamente segmentadas y evaluar su semejanza en términos de LR, permitiendo seleccionar la población relevante con base en el criterio del experto y las condiciones de cada caso.

Clave PAPIIT

IA400122

Autor(es)

Dra. Fernanda López Escobedo

Adscripción

Esc. Nal. de Ciencias Forenses

Convocatoria

2022

Contribución

Actualmente no existe un consenso entre los expertos que realizan comparación forense de voz sobre el mejor método para el análisis de una muestra de voz. Mientras algunos coinciden en que es mejor abordarlo desde un punto de vista más lingüístico realizando un análisis auditivo fonético y/o acústico fonético, otros defienden el uso de sistemas automáticos de comparación forense de voz que son ajenos al sesgo cognitivo. Sin embargo, una muestra de voz es una evidencia compleja dados los diferentes factores que influyen en su producción. En lingüística es conocida la variabilidad inherente al habla debida a factores internos y factores externos, por lo que el uso de un solo método resulta insuficiente para abordar un problema complejo.
Además, y debido a que cada muestra de voz tendrá sus particularidades, la posibilidad de analizarla utilizando diferentes métodos tiene la ventaja de poder emitir una conclusión a pesar de que las características acústicas de las grabaciones hayan sido afectadas por los nuevos sistemas y tecnologías informáticas, que en su búsqueda por hacer más ágil la transmisión de datos en la web, han generado un sin fin de formatos de audio digital comprimidos con pérdidas. Por ello, resulta conveniente conocer los diferentes métodos que se han desarrollado para analizar una muestra forense de voz y abordar el problema desde diferentes aspectos, considerando las distintas condiciones técnicas en las que puede presentarse una grabación dubitada.
La propuesta de este trabajo busca conjuntar las ventajas que presentan los métodos acústico fonético y los que utilizan sistemas automáticos de comparación forense de voz, para desarrollar una herramienta que permita realizar un análisis semiautomático y que genere resultados probabilísticos con base en valores de LR. Actualmente no existe una herramienta interactiva de acceso libre que permita realizar una comparación forense de voz y genere resultados en términos de LR tomando como población relevante una base de datos de voces del español de México. El desarrollo de una herramienta de este tipo permitirá, no solo aprovechar los recursos lingüísticos desarrollados en proyectos anteriores como es el Corpus de Lengua Oral del Español de México (CLOE México); sino contar con un instrumento que contribuya a la generación de técnicas de confronta que aportarán mayor validez a los dictámenes periciales que se llevan a cabo en los laboratorios de análisis de voz y acústica forense de los servicios periciales en México.

UNAM Universidad Nacional Autónoma de México