Inicio Internet SEO, Posicionamiento y Buscadores DotNetDotCom un rastreador open source

DotNetDotCom un rastreador open source

Sábado, 20 de Febrero de 2010 23:57 administrador Internet - SEO, Posicionamiento y Buscadores
Usar puntuación: / 1
MaloBueno 
Tweeteame!

DotNetDotCom.org es un robot que está rastreando en internet con el objetivo (entre otras cosas) de hacer internet lo mas abierto (open) posible.

DotNetDotCom.orgSu tecnología está basada en herramientas open source desarrollado en C y Python. Ellos a diferencia de otros buscadores, almacenan su indice en archivos planos como oposición a las bases de datos tradicionales.

Están abiertos a recibir sugerencias y apoyo a cualquier webmaster o programador que quiera participar en el proyecto. Dandoles soporte a las herramientas open source que están utilizando, como son gcc, gdb, Ubuntu, valgrind, python and libcurl.

En lo personal creo en que la información de Internet debe estar disponible a todo el mundo, abierta y comunitaria. Siendo posible acceder en todo momento y poder compartirla de la misma manera. Esto es algo que me gustó mucho de DotNetDotCom, ya que comparten el índice creado para que lo puedas descargar, pero cuidado! pesa unos 3.2 GB!.

El formato del contenido del índice se basa en <tags> al igual que Html, a continuación les detallo un poco el mismo.

 

El formateo se presenta de la siguiente manera:

        
Entry NULL Entry NULL Entry

Cada entrada contiene

  
URL-Without-Protocol NULL Optional-String-Not-Used NULL
Complete-HTTP-Response NULL

Claves

  • NULL = Zero Byte
  • url-without-protocol = www.example.com/
  • optional-string-not-used = Se utilizará en un futuro
  • complete-HTTP-response = La respuesta del servidor en forma completa

El siguiente es un ejemplo con dos entradas.


www.example.com/ HTTP/1.1 200 OK
Date: Sat, 20 Sep 2008 15:43:15 GMT
Server: Apache/2.0.52 (CentOS)
X-Powered-By: PHP/4.3.9
Content-Length: 557
Connection: close
Content-Type: text/html; charset=UTF-8

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0
Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml"
xml:lang="en" lang="en">
<head>
<meta http-equiv="Content-Type" content="text/html;
charset=utf-8" />
<title>I am an example.</title>
</head>
<body>
...
<body>
</html> www.example2.com/ HTTP/1.1 200 OK
Date: Sat, 20 Sep 2008 15:43:15 GMT
Server: Apache/2.0.52 (CentOS)
X-Powered-By: PHP/4.3.9
Content-Length: 557
Connection: close
Content-Type: text/html; charset=UTF-8

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0
Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml"
xml:lang="en" lang="en">
<head>
<meta http-equiv="Content-Type" content="text/html;
charset=utf-8" />
<title>I am a different example.</title>
</head>
<body>
...
<body>
</html>

Les dije que era open source no? bueno acá les dejo los enlaces de desacarga del indice de DotNetDotCom.org

Descarga de Indice de DotNetDotCom (3.2 GB) torrent

Descarga de ejemplo de contenido DotNetDotCom para analizar contenido (2 MB)

 


rssfeed Siguenos con tu lector de noticias preferido.
Si te ha gustado este artículo y si crees que lo que está escrito vale la pena compartirlo, entonces compártelo con la comunidad que prefieras mediante los links que están debajo. Gracias por visitarnos.
Email Drucken Favoriten Twitter Facebook Myspace Stumbleupon Digg MR. Wong Technorati aol blogger google reddit YahooWebSzenario
Última actualización el Domingo, 21 de Febrero de 2010 11:23

Escribir un comentario


Código de seguridad
Refescar

follow me twitter

Anuncios

Enlaces

Hosting Positivo Networks


Hosting y Diseño Web Profesional

Quizás también te pueda interesar: