Buenas a todos, estoy haciendo un bot de la wikipedia que consiste en entrar en la wikipedia y aspirar algunos datos importantes, parsearlos e insertarlos en base de datos para su posterior uso.
Mi problema es el siguiente: tengo este enlace donde la variable concatenada city puede ser cualquier ciudad/pais.
http://es.wikipedia.org/w/api.php?action=query&format=php&prop=revisions&tit les='.$city.'&rvprop=content
si lo abris os descargará el artículo de la wikipedia. El problema es que viene el texto muy sucio. Alguien sabe como tratar este texto para que quede limpio??