Extraer palabras de un texto

Nax · #1 (**permalink**) 15/02/2007, 08:15

Hola,

tengo que convertir un montón de documentos en base de datos... en fin!
El caso es que tengo que extraer todas las palabras que están en negrita (entre y ), he probado con la funcion instr pero solo extraigo la primera, no tengo ni idea de como debo montar el bucle...

Podeis ayudarme?

Saludos!

tammander · #2 (**permalink**) 15/02/2007, 08:30

Usa Replace

P.e.:

texto = Replace(texto,"","")
texto = Replace(texto,"","")

Replace es recursivo, es decir, se ejecuta hasta el final del texto o hasta que no encuentre mas (que es lo mismo :))

Un saludo

Nax · #3 (**permalink**) 15/02/2007, 08:34

Ya, gracias, pero tengo que extraer el texto que está en negrita... no sustituir las etiquetas...

Myakire · #4 (**permalink**) 15/02/2007, 08:55

Algo rápido:

Código:

<%
TextoOriginal = "Este es un <b>texto</b> de prueba <b>capturado</b> para probar un sencillo <b>algoritmo</b> que extrae las palabras encerradas entre <b>y</b>"
Texto = TextoOriginal
Dim Vector()
Cnt=0
Response.Write ("Texto Original:")&Server.HTMLEncode(TextoOriginal) & "<br>" 

While InStr(Texto,"<b>")>0
    Redim preserve Vector(Cnt)
		Vector(Cnt) = MID(Texto,InStr(Texto,"<b>")+3, (InStr(Texto,"</b>")-InStr(Texto,"<b>"))-3)
		Texto = Replace(Texto, "<b>", "|", 1, 1)
		Texto = Replace(Texto, "</b>", "|", 1, 1)
		Cnt=Cnt+1
Wend
Response.Write ("Palabras: <br>")
For i=0 to UBound(Vector)
  Response.Write Vector(i) & "<br>"
Next
%>

tammander · #5 (**permalink**) 15/02/2007, 09:04

Tienes razon, no me di cuenta.

Bueno, mira esto a ver si te vale. La idea es la misma: recursividad

Código:

texto = "Esto es una prueba de <b>valores</b> continuos que estan concatenados <b>uno</b> a <b>uno</b>"
 
function extraeTodos(texto)
 Dim textox
  textox = texto
  te = instr(1, textox, "<b>", 1)
  if te <> 0 and te <> vbNull then
   texto1 = left(textox, te-1)
   tu = instr(1, textox, "</b>", 1)
   if tu <> 0 and tu <> vbNull then texto2 = mid(textox,tu+4)
   extraeTodos = extraeTodos(1, (texto1 & texto2))
  end if
end function
 
 
response.Write(extraeTodos(texto))

Un saludo

Nax · #6 (**permalink**) 15/02/2007, 11:01

Muchas gracias a lo dos!

Estoy intentandolo con la primera forma y en la linea

Código:

Vector(Cnt) = MID(Texto,InStr(Texto,"HREF")+4, (InStr(Texto,"</B></A>")-InStr(Texto,"HREF"))-4)

me da el siguiente error:

Error de Microsoft VBScript en tiempo de ejecución (0x800A0005)
Argumento o llamada a procedimiento no válidos: 'MID'

Myakire · #7 (**permalink**) 15/02/2007, 11:44

mmmm, ese error es por que se han sustituido las marcas que haz colocado en las dos lineas siguientes a esa, pero no coincide con tu búsqueda

Ayudaría ver el código completo a ver como lo has modificado.

Por lo ponto detecto que no estan bien tus "etiquetas marca", para empezar no estas buscado lo que estan entre y , sino entre HREF y , lo que no tiene mucho sentido.

Si pudieras poner un ejemplo de una cadena de entrada y lo que quieres de salida, sería también de gran ayuda

Nax · #8 (**permalink**) 15/02/2007, 12:14

Tienes razón

, lo que pasa es que algunas etiquetas están mal anidadas y también quería sacar esa información, pero paso, debo sacar lo que está bien estructurado y listo!

<A HREF="*******">palabra</A> De aquí extraigo las palabras perfectamente

<A HREF="*******">palabra</A> De estas voy a pasar, porque tampoco son tantas...

Muchas gracias! Me ha servido de gran ayuda! Así da gusto!

Myakire · #9 (**permalink**) 15/02/2007, 13:42

De nada, me alegro que te haya servido

zenya · #10 (**permalink**) 19/03/2008, 23:56

Conocen algun algoritmo que extraiga las palabras en negrita de los documentos HTML, pero en otro lenguaje, por ejempplo en Perl ???

Ayudenme con eso ...

Saludos

Myakire · #11 (**permalink**) 24/03/2008, 12:01

Perl es un lenguaje para manipular textos por excelencia, cada una de las funciones de este ejemplo tienen equivalente en Perl, de cualquier forma quizá deseas preguntar esto en el foro de programación en general, si no deseas agregar algo más con relación a ASP, muevo el tema.

Saludos