antes que nada tienes que describir bien el alcance y funciones del sistema.
para hacerlo en php posible tendras que hacer un sistema hibrido, con ejecucion a shell o webservice a otros equipos (ej, windows), junto con algunas ejecuciones en shell y posiblemente usar flash y/o java para leer el audio.
una vez leido el audio posiblemente uses algun algoritmo para detectar fonemas tal vez el soundex, y a base de ello hacer la busqueda
aqui algunos programas y librerias de codigo abierto
http://sourceforge.net/search/?q=VOICE+RECOGNITION
eso es lo que se me ocurre estando sin informacion del proyecto