Eigene Suchmaschine

Joel

Legendäres Mitglied
Hallo Zusammen,

Wir haben nun eine eigene Suchmaschine gestartet.

Vorteil gegenüber Google oder ähnlichen Suchmaschinen ist, dass die Seiten selbst im Suchergebnis auftauchen und nicht nur Beschreibungs-Texte.

Vorteile gegenüber Alexa mit Screenshots:
- Die Bilder sind grösser und man kann den Inhalt etwas erkennen.
- Die Screenshots sind sehr aktuell.
- Es wird die konkrete Seite angezeigt und nicht die Startseite. Also Sucht man nach Simpsons wird nicht die Startseite von Amazon oder IMDB, New York Times angezeigt sondern der konkrete Artikel. Macht etwas mehr Sinn...
- Amazon und YouTube-Objekte werden extra-gross dargestellt.

Ihr könnt einige Beispiel-Suchen ausführen:
Simpsons
iPod
  • Bekommt vielleicht bald einen eigenen Namen und Domain (Vorschläge wären auch Willkommen)
  • Bekommt ein neues Design (Ich bin leider kein guter Designer...)
  • Mehr Funktionen (z.B. Seite 1,2,3,4,.. oder eine Detail-Vorschau beim Mouse-Over)
Wichtige Anmerkung: Bitte zum Ausprobieren nach maximal 3 Begriffen suchen. Wenn zu viele Leute gleichzeitig suchen, wird die Suchgeschwindigkeit negativ beeinflusst.

Falls jemand einen (oder mehrere) Root-Server hat und an zukünftigen Werbe-Einnahmen von Amazon oder anderen Partnerprogrammen beteiligt werden möchte, kann sich gerne melden. Je mehr Server und Benutzer die Suchmaschine hat, desto schneller wird sie. Denn dann wird mehr gecached, das Rechnen kann verteilt werden, etc. Vielleicht hat ja jemand Root-Server Verträge und nichts auf den Servern am laufen oder ähnliches.

PS: Ist noch Beta! Oder Alpha ..
wink.gif


Getestet mit Firefox und Safari.

Gruess,
Joel
 
Das finde ich einmal eine witzige Idee
smile.gif
))
Echt - kleine Screens anzuzeigen ohne was drumm herum -aber ich würde es dann doch so machen:

Den Screen der gefundenen Webseite etwas kleiner zB. ca. 150 x 150 PX und dann doch etwas Text entweder rechts daneben oder unter den Screen setzen zB. könnten da gewisse Suchbegriffe passend dazu aufgelistet werden, oder ???

Gruß Dirk
 
die idee ist geil.

leider ist der logarithmus dahinter noch ned wirklich gut. die trefferquote ist noch ein wenig mager. vorallem an CH begriffe. deutschland begriffe findet er schon eher. aber ich denke das könnte noch was werden. also nen bookmark hat es mal schon gekriegt bei mir...
 
yep, gute idee, aber wenigstens die url der angezeigten seite wuerde ich dazu schreiben...screenshot hin oder her, kann man so schnell malwaresites o.ä. aufsitzen und es gibt nunmal seiten die ich alleine schon von der URL her nicht besuchen wuerde ;-)

 
Top, ich würde Screens kleiner machen und wenn man drauf geht mit der maus dann sollte ein Snapshot erscheinen, und wie kann man da seine Seite eintragen
unsure.gif
 
QUOTE
yep, gute idee, aber wenigstens die url der angezeigten seite wuerde ich dazu schreiben.


Yup ich werde die Texte noch dazu einblenden wenn man mit der Maus drüber geht, haben so ziemlich alle gesagt dass sie Texte wollen.


QUOTE
und wie kann man da seine Seite eintragen


Kann man nicht direkt leider
ohmy.gif
. Nur grössere Seiten wie Wikipedia, Amazon, YouTube werden speziell behandelt.


QUOTE
die trefferquote ist noch ein wenig mager.



Naja sind okay, abgesehen von einem kleinen Umlaut-Problem findet man auch lokale Dinge:
http://www.enzian-media.ch/search?query=zueri+gschnaetzlets

Die Links kommen vom Yahoo-API, die Reihenfolge ist selbst zusammengestellt. Also die top 50 Links kommen vom Yahoo-API, dann wird die Reihenfolge verändert und einige Seiten gefiltert!

Einige Seiten werden aber anders abgefragt z.B. Amazon, YouTube, etc. Ich könnte z.B. einstellen dass wenn Möglich auf jeder Seite zusätzlich 5 YouTube und 5 Amazon-Seiten angezeigt werden um z.B. den Amazon-Umsatz zu erhöhen. Aber diese Funktion ist Momentan ausgeschaltet da ich z.B. für Amazon kein anständiges Ranking habe. (Die Blended-Search auf Amazon liefert sehr schlechte Ergebnisse. )

Möglichkeiten für die Zukunft:
1) http://lucene.apache.org/java/docs/ << Das Apache Lucene könnte eingesetzt werden. Wikia setzt als Hintergrundtechnologie auch dieses OpenSource-Projekt ein.
2) Alexa-API, die Suchresultate wären noch schlechter und die Rechenzeit dort ist kostenpflichtig, jedoch unbegrenzt. (Die Kosten sind relativ günstig).
3) Weiterhin auf Yahoo und andere APIs setzen.

Der Renderer ist auch noch nicht wirklich gut:
- Framesets, Flash-Seiten und Seiten die sehr stark gegen den Standard verstossen werden nicht gerendert. Meistens ist es aber sehr schnell Nachvollziehbar wenn ein Rendering-Fehler auftritt (Die Seiten haben zum Teil nicht mal <html>-Tags oder kein <body>, etc.).

 
Ich finde die Idee stark und wenn du die Kinderkrankheiten raus hast könnte das doch echt was werden!
 
Theoretisch finde ich die Idee ziemlich gut.

Praktisch sind bei solchen 'Bilddarstellungen' zwei Probleme kaum lösbar, die auch hier auftreten:

http://www.enzian-media.ch/search?query=xml

Bei IBM ist die Seite größtenteils weiß, bei einem anderen Ergebnis sind Text und Menü völlig miteinander vermischt.


http://www.enzian-media.ch/search?query=unicode

Die Seite http://vietunicode.sourceforge.net/ sagt 'This page uses frame, but your browser doesn't support frames'.


Diese Probleme sind zwar eigentlich Probleme der jeweiligen Seiten: Die verwenden Frames, das Design ist zu breit oder es hat irgendwelche Schwächen. Nur: Diese Probleme rechnen die Laien eher der Suchmaschine zu - 'die könne das nicht richtig darstellen, in meinem Browser sieht das doch ordentlich aus'.

Eine Lösung für das Problem habe ich fast nicht. Einzig die Frameseiten könnte man mit einem Spider und Parsen herausfiltern.
 
QUOTE
Bei IBM ist die Seite größtenteils weiß, bei einem anderen Ergebnis sind Text und Menü völlig miteinander vermischt.

Eine Lösung für das Problem habe ich fast nicht. Einzig die Frameseiten könnte man mit einem Spider und Parsen herausfiltern.



Es gibt viele Rendering-Probleme im Moment. Seiten von IBM, etc. sind da noch das kleinste Problem da sich IBM relativ gut um die Standard-Konformität kümmert.

Zum Frame-Problem:

Ich sehe da einige Lösungen:
1) Das Rausfiltern wäre relativ einfach.
2) Nur das "Haupt-Frame" anzeigen rendern.
3) Ich habe noch alternative "Firefox" und "Opera" als Renderer wie ich in einem anderen Thread schon erwähnt habe. Diese rendern sehr schön aber bringen wieder andere Probleme mit sich. Ich weiss z.B. nicht wie ich mit dem Firefox-Renderer mehrere Seiten gleichzeitig Multithreaded-Rendern kann...
4) Den Frame-Rendering-Code verbessern. Ich patche Momentan den DocType immer zu XHTML. Jede Seite wird vorher noch durch Tidy durchgelassen bevor sie gerendert wird damit der Code Valid ist und weniger Probleme auftreten.

--

Aber momentan geht es mir nicht darum jede Seite perfekt zu rendern. Die Vorschau-Bilder sind relativ klein und die gröbsten Rendering-Probleme kann ich beheben. Es geht eher darum dass der Benutzer einen kleinen Einblick in die Seite bekommt und keine perfekt-gerenderte Seite.
 
hmm...
also ich finde das ganze hat schon was, ich kann mich aber zum Teil meinen Vorrednern anschließen:
Zumindest das Anzeigen der URL wäre sinnvoll.

Weiterhin ist die Suchengine doch sehr merkwürdig.
Suche ich nach meinem Domainnamen (ohne tld), so bekomme ich meine Seite nicht angezeigt, obwohl diese bei fast allen Suchmaschinen top geranked ist.
Stattdessen kommen viele alte Seiten, einige Videos von mir (von youtube), etc...

schon komisch.

Ansonsten eine echt gute Idee, bin mal gespannt wie es weiter geht.
LG
André
 
nur ein tipp falls ihr lucene einsetzen wollte, verwendet in keinem fall die php implementierung von zend - selbst ein index auf papier ist schneller
wink.gif


sphinx soll mittlerweile auch wieder besser geworden sein
 
Gute Idee und bisher auch ganz gut umgesetzt! Aber:
- die Screnshots der Webseiten werden teilweise noch nicht korrekt erstellt (http://213.239.204.40/render?frame=rahmen-klein-black&url=http://www.oracle.com/technology/tech/xml/index.html)
- es gibt - wie schon von anderen bemerkt - ein Problem mit Umlauten und Sonderzeichen
Ihr könntet das Ganze dann auch noch um einen Thumbshot-Service erweitern, sodass ihr neben der Suchmaschine einen zweiten guten Dienst hättet.
____________________

Es gibt aber ein Problem: Die Anzeige mit den Bildern darf nicht euer einziger Vorteil bleiben! Ihr müsst super Ergebnisse liefen können. Denn wenn ihr später mal Google überholt HÄTTET (
biggrin.gif
), dann könnte Google einfach auch solche Thumbnails statt Beschreibungen liefern und wäre wieder vorne...
wink.gif
 
QUOTE
nur ein tipp falls ihr lucene einsetzen wollte, verwendet in keinem fall die php implementierung von zend - selbst ein index auf papier ist schneller


Danke für den Tipp. Wäre zwar sowieso nicht auf die Idee gekommen die PHP-Version zu benützen, aber nehme mal an dass die anderen auch nicht viel schneller sind.


QUOTE
Ihr könntet das Ganze dann auch noch um einen Thumbshot-Service erweitern, sodass ihr neben der Suchmaschine einen zweiten guten Dienst hättet.


Naja mal schauen... Wenn jemand Interesse hat an einem Thumbshot-Serivce kann er sich melden. Aber ich hätte ja auch nicht viel davon


QUOTE
Es gibt aber ein Problem: Die Anzeige mit den Bildern darf nicht euer einziger Vorteil bleiben! Ihr müsst super Ergebnisse liefen können. Denn wenn ihr später mal Google überholt HÄTTET (  ), dann könnte Google einfach auch solche Thumbnails statt Beschreibungen liefern und wäre wieder vorne...


Naja wäre auch egal oder. Wenn Google uns kopieren würde wäre ich schon happy
wink.gif
.

Aber wir werden schon noch ein paar coole Features einbringen. An Google kommt man sowieso nicht ran, ich kann mir im Moment nicht mehr als 2 Server leisten und Google hat Gerüchten zufolge mehr als 1'000'000 Server
ohmy.gif
.

Ich wäre am ehesten am Servern interessiert falls jemand von euch hat. Im Gegenzug könnte er z.B. die Suchmaschine auf seiner Website einbinden oder an den Einnahmen beteiligt werden.

Bisher hatte ich auch erst 8 bis 16 Stunden Aufwand für die Seite, einige Teile hatte ich schon früher für andere Projekte gemacht... Also wenn ich mal 2 Tage mit einer Lungenentzündung aus Interesse ein kleines Projekt mache, möchte ich auch nicht gleich besser als Google sein
laugh.gif
 
Hey, ich hab meine Site sofort gefunden! (also Format bei mir okay
wink.gif
) Sieht echt gut aus mit Screenshots, das nenne ich eine fortschrittliche Suchmaschine!

Nur das "Suche"-Zeichen war nirgends zu finden, die Suchmaschine fand ich nur über den Simpsons-Link bzw. auf der Home-Seite funktionierte die Frage-Funktion nicht.

Ja, die Url sollte angegeben werden, wäre hilfreich.

Viel Erfolg beim Überholen der Großen!

Hätte ich genug Geld, würde ich gleich investieren.
 
QUOTE
Nur das "Suche"-Zeichen war nirgends zu finden, die Suchmaschine fand ich nur über den Simpsons-Link bzw. auf der Home-Seite funktionierte die Frage-Funktion nicht.


Hmm ja, man kann mit der Enter-Taste die Suchabfrage ausführen. Und das auf der Home-Seite ist keine Frage-Funktion sondern ein Chat
wink.gif
. Die dort gestellten Fragen werden zu meinem MSN weitergeleitet und ich kann sie dort auch beantworten.

--

Also es sollte nun die Domain sowie eine kurze Beschreibung (= <title>) angezeigt werden wenn man mit der Maus über den Link fährt.

Beispiel:
Suche nach "madonna"
 
Schön was fürs Auge.

Der weitaus grösste Teil der Internetbenutzer sucht ja was fürs Auge.
Schön, dass es dann auch eine passende Suma gibt.

Die linktexte sind auch gut, obwohl ein bisschen mehr Beschreibung drin sein könnte.
Aber das kann auch Gewohnheitsache sein.
Wahrscheinlich bekommt man bei häufiger Nutzung bereits nach ein paar Tagen
ein Auge für gute Treffer.

Ausserdem ist die Yahoo Api ist doch sehr begrenzt.

Vielleicht könnte man die Ergebnisse noch nach Beliebtheit gewichten
und social-bookmark-seiten mit anzapfen oder Alexas "mover und shaker".

Ist halt noch die Geschwindigkeit,...
cool.gif
 
Hallo Joel,

deine Arbeit finde ich klasse. Die Hintergrundfarbe könnte etwas freundlicher sein. Aber das ist Geschmacksache. Wünsche dir noch viel Erfolg mit deinem Projekt.


MfG
 
Die Idee ist wirklich gut.
Leider klappt es mit dem Rendering noch nicht. Aber wenn ihr das in den Griff bekommt, dann werded ihr euren Erfolg haben (oder aufgekauft werden).

Cheers, René
 
Zurück
Oben