Foros del Web » Programación para mayores de 30 ;) » C/C++ »

Bloc De Notas: Como descartar texto??

Estas en el tema de Bloc De Notas: Como descartar texto?? en el foro de C/C++ en Foros del Web. Hola, esto es un tema publicado en otra temática, pero como necesito de programción decidi publicarlo también aquí, espero que los moderadores no tengan ningún ...
  #1 (permalink)  
Antiguo 24/04/2010, 15:57
 
Fecha de Ingreso: enero-2007
Mensajes: 37
Antigüedad: 17 años, 10 meses
Puntos: 1
Bloc De Notas: Como descartar texto??

Hola, esto es un tema publicado en otra temática, pero como necesito de programción decidi publicarlo también aquí, espero que los moderadores no tengan ningún inconveniente.


Hola,

Tengo un archivo de texto de bloc de notas de 8 Megas (es gigante, ya lo sé, y allí radica el problema), que contiene varios datos y detalles de listas de archivos, documentos y libros, el problema esta en que esta estructurado en una especie de arbol y subarboles y al final de cada subarbol pues pone detalles del mismo y asi sucessivamente (vamos, para dar un ejemplo, como coger un directorio de windows y imprimir detalles de los contenidos, incluidos subdirectorios y archivos pero con los detalles esparcidos a lo largo del documento), pues verán, mi duda es ¿como extraer los numeros que son precios y peso y ponerlos en un archivo excel para poder manipularlos (suma y resta básicamente)?. Los intenté hacer uno por uno y se me ha hecho eterno por no decir imposible dada la cantidad ingente de datos y lineas, también intente abrirlo directamente con el excel y el word a ver si automaticamente hacía alguna clasificación automatica de los numeros, pero na de naaaa.

Cabe mencionar dos cosas:
-los numeros que me interesan vienen precedidos por las palabras artículo y €
-hay otros numeros en el documento pero no me interesan, solo lo hacen los mencionados anteriormente

Espero que alguien me pueda echar una mano, es un trabajo que estoy haciendo para clase.

Gracias


Hola de nuevo,

Gracias por contestar, la verdad es que teneis razón, es una jodienda (con perdón), pero no tengo otra alternativa, he de encontrar el modo de sacar los números.

He estado buscando, y descubrí que se puede hacer escribiendo un programa de C, pues bueno, ya tengo el Turbo C, y sé que tengo que hacer un programa que me haga las operaciones, ejecutarlo y luego aplicarlo al archivo, el problema esta en que no tengo ni la más remota idea, ¿alguien me podría echar una mano para hacer el archivo .c?

Agradezco de antemano cualquier ayuda, y espero que alguien que sepa de programar tenga un par de minutos para ayudarme
  #2 (permalink)  
Antiguo 24/04/2010, 17:59
Avatar de razpeitia
Moderador
 
Fecha de Ingreso: marzo-2005
Ubicación: Monterrey, México
Mensajes: 7.321
Antigüedad: 19 años, 8 meses
Puntos: 1360
Respuesta: Bloc De Notas: Como descartar texto??

Esto parece un problema típico de expresiones regulares.
  #3 (permalink)  
Antiguo 24/04/2010, 20:47
 
Fecha de Ingreso: abril-2010
Ubicación: Rosario
Mensajes: 1.850
Antigüedad: 14 años, 7 meses
Puntos: 228
Respuesta: Bloc De Notas: Como descartar texto??

Hacete un pequeño analizador lexico con Flex. Lo compilas y listo!
Si queres te ayudo pero tendrias que darme un pedaso del archivo o algun ejemplo mas cuerente!
  #4 (permalink)  
Antiguo 25/04/2010, 02:41
 
Fecha de Ingreso: enero-2007
Mensajes: 37
Antigüedad: 17 años, 10 meses
Puntos: 1
Respuesta: Bloc De Notas: Como descartar texto??

Hola,

Aqui os pongo un pequeño trozo del archivo .txt en cuestión, he marcado los datos que quiero extraer y pasar a excel para poder trabajar con ellas (documentos en una columna y usuarios en la otra)




Lista 21061095

11.385 american help 22
11.385 british help 18
11.807 cantonese help 23
12.269 czech help 12
11.465 danish help 15
12.154 dutch help 15
11.369 finnish help 15
12.442 french help 22
12.539 german help 21
12.699 greek help 18
12.010 italian help 16
11.455 mandarin help 28
11.303 norwegian help 15
12.109 portuguese help 18
12.145 romanian help 15
12.071 spanish help 22
11.543 swedish help 16
11.754 taiwanese help 19
18 documentos 213.904 usuarios 330

Lista 21061096

150320062220 37 begin_of_the_skype_highlighting              15032 0062220 37      end_of_the_skype_highlighting begin_of_the_skype_highlighting              15032 0062220 37      end_of_the_skype_highlighting begin_of_the_skype_highlighting              15032 0062220 37      end_of_the_skype_highlighting begin_of_the_skype_highlighting              15032 0062220 37      end_of_the_skype_highlighting begin_of_the_skype_highlighting              15032 0062220 37      end_of_the_skype_highlighting begin_of_the_skype_highlighting              15032 0062220 37      end_of_the_skype_highlighting begin_of_the_skype_highlighting              15032 0062220 37      end_of_the_skype_highlighting begin_of_the_skype_highlighting              15032 0062220 37      end_of_the_skype_highlighting begin_of_the_skype_highlighting              15032 0062220 37      end_of_the_skype_highlighting.816 american language
150320062220 37.980 british language
150320026220 18.004 cantonese language
150320026220 41.008 czech language
150320026220 38.148 danish language
150320026220 41.128 dutch language
150320026220 40.912 finnish language
150320026220 44.256 french language
150320062220 43.100 german language
150320062220 45.658 greek language
150320062220 43.622 italian language
150320062220 17.964 mandarin language
150320062220 38.946 norwegian language
150320062220 43.400 portuguese language
150320062220 42.110 romanian language
150320062220 43.474 spanish language
150320062220 38.070 swedish language
150320062220 18.006 taiwanese language
18 documentos 673.602 usuarios

Lista 21061097

23032009 0225 <DIR> .
23032009 0225 <DIR> ..
29112004 1240 1.062 coroutine_license
15022006 1806 22.042 Diccionario Czech a NO US CAN
15022006 1806 11.103 Diccionario Danish a NO US CAN
15022006 1744 11.535 Diccionario Dutch a NO US CAN
15022006 1806 10.231 Diccionario English a NO US CAN
15022006 1806 10.557 Diccionario English a US CAN
15022006 1806 10.340 Diccionario Finnish a NO US CAN
15022006 1807 11.118 Diccionario French a NO US CAN
15022006 1808 11.498 Diccionario French a US CAN
15022006 1754 11.790 Diccionario German a NO US CAN
15022006 1808 21.458 Diccionario Hungarian a NO US CAN
15022006 1758 11.882 Diccionario Italian a NO US CAN
15022006 1808 10.822 Diccionario Norwegian a NO US CAN
15022006 1808 23.620 Diccionario Polish a NO US CAN
15022006 1808 11.601 Diccionario Portuguese a NO US CAN
15022006 1808 20.882 Diccionario Slovak a NO US CAN
15022006 1808 11.557 Diccionario Spanish a NO US CAN
15022006 1808 13.533 Diccionario Spanish a US CAN
15022006 1809 10.405 Diccionario Swedish a NO US CAN 1
20102004 1612 15.397 Diccionario Swedish a NO US CAN 2
29112004 1307 200 Diccionario Swedish a NO US CAN 3
15022006 1823 10.884 Mini Traductor Czech a NO US CAN
15022006 1823 5.795 Mini Traductor Danish a NO US CAN
15022006 1823 6.222 Mini Traductor Dutch a NO US CAN
15022006 1824 5.338 Mini Traductor English a NO US CAN
15022006 1824 5.597 Mini Traductor English a US CAN
15022006 1824 5.438 Mini Traductor Finnish a NO US CAN
15022006 1824 6.331 Mini Traductor French a NO US CAN
15022006 1824 6.424 Mini Traductor French a US CAN
15022006 1824 6.361 Mini Traductor German a NO US CAN
15022006 1824 11.478 Mini Traductor Hungarian a NO US CAN
15022006 1820 6.300 Mini Traductor Italian a NO US CAN
15022006 1826 5.528 Mini Traductor Norwegian a NO US CAN
15022006 1826 12.100 Mini Traductor Polish a NO US CAN
15022006 1826 6.052 Mini Traductor Portuguese a NO US CAN
15022006 1826 10.606 Mini Traductor Slovak a NO US CAN
15022006 1826 5.977 Mini Traductor Spanish a NO US CAN
15022006 1826 6.351 Mini Traductor Spanish a US CAN
15022006 1826 5.423 Mini Traductor Swedish a NO US CAN 1
23122004 1547 783 Mini Traductor Swedish a NO US CAN 2
03112004 1012 1.494 Mini Traductor Swedish a NO US CAN 3
23122004 1445 1.634 Mini Traductor Swedish a NO US CAN 4
42 documentos 394.749 usuarios

Lista 21061098

12032009 0152 <DIR> .
12032009 0152 <DIR> ..
29112004 1240 1.062 Diccionario Czech a NO US CAN 1
15022006 1806 22.042 Diccionario Czech a NO US CAN 2
15022006 1806 11.103 Diccionario Danish a NO US CAN
15022006 1744 11.535 Diccionario Dutch a NO US CAN
15022006 1806 10.231 Diccionario English a NO US CAN
15022006 1806 10.557 Diccionario English a US CAN
15022006 1806 10.340 Diccionario Finnish a NO US CAN
15022006 1807 11.118 Diccionario French a NO US CAN
15022006 1808 11.498 Diccionario French a US CAN
15022006 1754 11.790 Diccionario German a NO US CAN
15022006 1808 21.458 Diccionario Hungarian a NO US CAN
15022006 1758 11.882 Diccionario Italian a NO US CAN
15022006 1808 10.822 Diccionario Norwegian a NO US CAN
15022006 1808 23.620 Diccionario Polish a NO US CAN
15022006 1808 11.601 Diccionario Portuguese a NO US CAN
15022006 1808 20.882 Diccionario Slovak a NO US CAN
15022006 1808 11.557 Diccionario Spanish a NO US CAN
15022006 1808 13.533 Diccionario Spanish a US CAN
15022006 1809 10.405 Diccionario Swedish a NO US CAN 1
20102004 1612 15.397 Diccionario Swedish a NO US CAN 2
29112004 1307 200 Diccionario Swedish a NO US CAN 3
15022006 1823 10.884 Mini Traductor Czech a NO US CAN
15022006 1823 5.795 Mini Traductor Danish a NO US CAN
15022006 1823 6.222 Mini Traductor Dutch a NO US CAN
15022006 1824 5.338 Mini Traductor English a NO US CAN
15022006 1824 5.597 Mini Traductor English a US CAN
15022006 1824 5.438 Mini Traductor Finnish a NO US CAN
15022006 1824 6.331 Mini Traductor French a NO US CAN
15022006 1824 6.424 Mini Traductor French a US CAN
15022006 1824 6.361 Mini Traductor German a NO US CAN
15022006 1824 11.478 Mini Traductor Hungarian a NO US CAN
15022006 1820 6.300 Mini Traductor Italian a NO US CAN
15022006 1826 5.528 Mini Traductor Norwegian a NO US CAN
15022006 1826 12.100 Mini Traductor Polish a NO US CAN
15022006 1826 6.052 Mini Traductor Portuguese a NO US CAN
15022006 1826 10.606 Mini Traductor Slovak a NO US CAN
15022006 1826 5.977 Mini Traductor Spanish a NO US CAN
15022006 1826 6.351 Mini Traductor Spanish a US CAN
15022006 1826 5.423 Mini Traductor Swedish a NO US CAN 1
23122004 1547 783 Mini Traductor Swedish a NO US CAN 2
03112004 1012 1.494 Mini Traductor Swedish a NO US CAN 3
23122004 1445 1.634 Mini Traductor Swedish a NO US CAN 4
42 documentos 394.749 usuarios

Última edición por yek1234567890; 25/04/2010 a las 02:50
  #5 (permalink)  
Antiguo 25/04/2010, 02:49
 
Fecha de Ingreso: enero-2007
Mensajes: 37
Antigüedad: 17 años, 10 meses
Puntos: 1
Respuesta: Bloc De Notas: Como descartar texto??

Lista 21061099

14102009 0105 begin_of_the_skype_highlighting**************14102 009 0105******end_of_the_skype_highlighting begin_of_the_skype_highlighting**************14102 009 0105******end_of_the_skype_highlighting begin_of_the_skype_highlighting**************14102 009 0105******end_of_the_skype_highlighting begin_of_the_skype_highlighting**************14102 009 0105******end_of_the_skype_highlighting <DIR> .
14102009 0105 <DIR> ..
12092009 2134 348 03-Perry S.D - Resident Evil 3 - La Ciudad de los Muertos
09092009 1855 588.472 03-Perry S.D - Resident Evil 3 - La Ciudad de los Muertos (Resumen)
06092009 2142 348 1 - Harry Potter y la piedra filosofal
06092009 0526 608.804 1 - Harry Potter y la piedra filosofal (Resumen)
12092009 2134 348 5 - Harry Potter y la orden del Fenix
10092009 1138 2.107.680 5 - Harry Potter y la orden del Fenix (Resumen)
04092009 2339 300 Anna Katharine Green - A Strange Disappearance
03092009 1829 165.268 Anna Katharine Green - A Strange Disappearance (Resumen)
06092009 2144 308 Brown Dan - El codigo Da Vinci
06092009 2216 458.156 Brown Dan - El codigo Da Vinci (Resumen)
06092009 2149 300 Craig, Jamie - Stealing West
17092008 2155 185.180 Craig, Jamie - Stealing West (Resumen)
06092009 2141 300 Diccionario de Falacias
06092009 2242 145.156 Diccionario de Falacias (Resumen)
10092009 1457 348 Diccionario de la Real Academia Espa¤ola de la Lengua
09092009 1859 138.328 Diccionario de la Real Academia Espa¤ola de la Lengua (Resumen)
10092009 1444 300 Diccionario Ingles - Espa¤ol
09092009 1635 1.654.840 Diccionario Ingles - Espa¤ol (Resumen)
05092009 0658 360 DICT Dificultades Lengua Espa¤ola
04092009 2326 1.450.496 DICT Dificultades Lengua Espa¤ola (Resumen)
05092009 0659 300 DICT Wordnet
16022006 1616 17.821.176 DICT Wordnet (Resumen)
10092009 1444 1.308 Gabriel Garcia Marquez - Cronica de una muerte anunciada
03092009 1435 115.268 Gabriel Garcia Marquez - Cronica de una muerte anunciada (Resumen)
06092009 2148 308 Golden C Arthur - Memorias de una geisha
06092009 2139 486.792 Golden C Arthur - Memorias de una geisha (Resumen)
13092009 0514 300 Katherine Neville - El Circulo Magico
10092009 2048 1.264.496 Katherine Neville - El Circulo Magico (Resumen)
13092009 0518 300 Katherine Neville - El Fuego
10092009 2057 788.316 Katherine Neville - El Fuego (Resumen)
13092009 0519 300 Katherine Neville - El ocho
10092009 2139 902.040 Katherine Neville - El ocho (Resumen)
13092009 0516 300 Ken Follett - Los Pilares de la Tierra
10092009 2145 1.996.896 Ken Follett - Los Pilares de la Tierra (Resumen)
13092009 0518 300 Ken Follett - Un Mundo Sin Fin
10092009 2132 1.720.460 Ken Follett - Un Mundo Sin Fin (Resumen)
06092009 2146 300 Kevin Mitnick - El Arte de la Intrusion Espa¤ol
06092009 2055 1.424.564 Kevin Mitnick - El Arte de la Intrusion Espa¤ol (Resumen)
12092009 2150 300 kevin mitnick - El arte de la intrusion
10092009 0206 579.636 kevin mitnick - El arte de la intrusion (Resumen)
12092009 2151 300 La fabulosa historia de los Pelayos - Ivan y Gonzalo Garcia-Pelayo
10092009 0354 1.118.600 La fabulosa historia de los Pelayos - Ivan y Gonzalo Garcia-Pelayo (Resumen)
12092009 2151 380 La Isla del tesoro
10092009 0044 472.396 La Isla del tesoro (Resumen)
25092009 1850 8.584 Mankel Henning - Asesinos Sin Rostro
03092009 1921 418.308 Mankel Henning - Asesinos Sin Rostro (Resumen)
29092009 1414 1.884 Paulo Coelho - El Alquimista
03092009 1819 182.636 Paulo Coelho - El Alquimista (Resumen)
12092009 2352 300 Roger Zelazny - El Se¤or de la Luz
09092009 2208 248.484 Roger Zelazny - El Se¤or de la Luz (Resumen)
06092009 2149 8.296 Soldados de Salamina
06092009 2209 262.424 Soldados de Salamina (Resumen)
10092009 1444 308 S�skind Patrick - El Perfume
10092009 0653 255.476 S�skind Patrick - El Perfume (Resumen)
10092009 1451 300 The American Dictionary of the English Language
05092009 1729 6.649.236 The American Dictionary of the English Language (Resumen)
12092009 2151 348 The Art of Deception - Kevin Mitnick
09092009 2158 845.852 The Art of Deception - Kevin Mitnick (Resumen)
10092009 1458 300 Un rey golpe a golpe - Biografia no autorizada de Juan Carlos De Borbon - Patricia

Sverlo
09092009 1516 533.220 Un rey golpe a golpe - Biografia no autorizada de Juan Carlos De Borbon - Patricia

Sverlo (Resumen)
12092009 2357 300 Vinge, Vernon - Un fuego sobre el abismo
05092009 2226 542.100 Vinge, Vernon - Un fuego sobre el abismo (Resumen)
66 documen[B]tos 46.542.424 usuarios





Espero que más o menos se vea lo que quiero hacer, no pongo el ejemplo más largo porque el mensaje se alarga demasiado y no puedo enviarlo

Los datos a extraer son los escritos en rojo y aquí vienen precedidos por las palabras documentos y usuarios. Todo el archivo viene a contener lo mismo, pero es el tamaño (quien ha dicho que no importa), lo que lo hace imposible de manipular

Gracias de nuevo

Última edición por yek1234567890; 25/04/2010 a las 02:58
  #6 (permalink)  
Antiguo 25/04/2010, 08:57
 
Fecha de Ingreso: abril-2010
Ubicación: Rosario
Mensajes: 1.850
Antigüedad: 14 años, 7 meses
Puntos: 228
Respuesta: Bloc De Notas: Como descartar texto??

Si estas en Linux puedes hacerle un filtro desde la consola

cat miarchivo.txt | grep "usuarios" > filtrado.txt

en caso que estes en windows usa la herramienta WinGrep que es muy similar. Sirve para filtrar expresiones regulares.

Etiquetas: notas
Atención: Estás leyendo un tema que no tiene actividad desde hace más de 6 MESES, te recomendamos abrir un Nuevo tema en lugar de responder al actual.
Respuesta




La zona horaria es GMT -6. Ahora son las 03:45.