Supongo que tengo un listado así:
http://www.sitio.com/provincias/provincia-buenos-aires/item/515.html http://www.sitio.com/provincias/santa-cruz/item/466.html http://www.sitio.com/component/k2/itemlist/user/72.html http://www.sitio.com/nacion/item/507.html
De todos estos link, solo quiero obtener los que estan en verde. Para poder lograr esto hago lo siguiente:
http:\/\/www\.sitio\.com\/[^ ]+\/[0-9]+\.html
El problema que tengo es que también levanto el link que está en rojo. Lo único que se me ocurrió fue poder filtrar que no aparezca la palabra "component" o "k2" dentro de
[^ ]+, pero nada me funcionó.
Espero haber explicado bien el problema