Estoy haciendo un código para "limpiar" textos.
Uno de los objetivos es poder detectar de alguna forma nombres propios de personas o países, etc.
Por ejemplo, si tengo el siguiente texto:
"Mi nombre es Juan Perez y vivo en Colombia"
Lo ideal sería que quede:
"Mi nombre es y vivo en"
Entonces la lógica sería buscar todas las palabras que empiecen con mayúscula y borrarlas, sin tener en cuenta el primer caracter del texto que por lo general va en mayúscula y el primer caracter después de un punto (.)
Alguien me da una mano?
Como también borrar todas las palabras con mayúscula es arriesgado, también se me ocurrió hacer algo similar pero solo cuando se encuentran dos palabras juntas que empiezan con mayúscula (por lo general Nombres compuestos)
El texto del ejemplo quedaría así:
"Mi nombre es y vivo en Colombia"
Este es más dificil no?