Así nomás, no, todos los sonidos vienen mezclados en los tracks de música, así que no se puede sacar un canal de voz o de otro instrumento, se pueden usar filtros y ecualizaciones para intentar hacerlo, pero los resultados no son muy limpios... Todo depende de la composición del audio, la idea es suprimir los sonidos que no sean voz, si el audio del "entorno" tiene frecuencias que empatan con las de la voz será cási imposible (cási), si el entorno no tiene muchas frecuencias similares, la supresión pue ser mejor...
Puedes intentar dandole varios procesos de ecualización "vocal" para ir "desvastando" los demás sonidos. (esta terminología del audio
)