Jun 122007
 

Da habe ich gestern doch mal zur Abwechslung wieder nach etwas gegoogled und da ich durchaus auch mal die zweite Ergebnisseite (and beyond) betrachte, wunderte ich mich über die Zeile „Searches related to: …“ über der Seitennavigation.

Nachdem ich heute dann wieder mein schönes „Suchmaschinen“-Seminar hatte, habe ich doch mal bei Herrn Lewandowski nachgefragt, ob das neu oder mir nur bisher entgangen sei. Er verwies aus (s)einen (?) aktuellen Artikel in Password (ISSN 0930-3693), d.h. es ist wohl tatsächlich neu. Nun es war tatsächlich recht hilfreich, wenn die Positionierung auch reichlich ungünstig ist.

 

Hier eine Beispielsuche mit related searches.

 

Oh, wenn ich schon dabei bin meine Sheriffblickbeobachtungen mitzuteilen… Bei Exalead ist mir neulich bei irgendeiner Suche auch aufgefallen, dass in der „Narrow your search“-Box ein Filter „Site Type“ (mit einem Beta daneben) stand. Der Eintrag dazu war „Forum, Blog“… Also das wäre auch schon eine feine Sache.

Tja, jetzt braucht es nur mal wieder etwas mehr Zeit um mal genauer hinzugucken… 🙂

 

EDIT: Upsala, da fällt mir gerade auf, dass ich bei Firefox immer als Englischsprachler ausgeben (per Plugin). Sonst funktioniert es auch nicht. Beim IE kann man über Extras > Internetoptionen > Sprachen > Hinzufügen > „Englisch [USA] ändern (muss noch ganz oben stehen).
Andererseits frage ich mich gerade, warum es in der HAW klappte…

(PS: Nach Monaten ist das Edit dann auch im richtigen Beitrag :-D)

Mrz 282007
 

Da bin ich gerade für unser Semester-Projekt auf der Suche nach „Inspirationen“ zum Thema Chatterbots und stoße dabei auf das Subject Tracer Information Blog Chatterbots. Ich wunderte mich, dass es nur einen Blog-Eintrag, dafür mit ner Menge interessanter Links, existiert.

Also mal auf den Link Marcus P. Zillman’s Blog geklickt um zu sehen was das alles im innersten zusammenhält. Das sah ja auch interessant aus – der dritte Beitrag weißt auf LibWorm hin und auch ansonsten viel spannendes dabei. Dann schon wieder so ein Subject Tracer Information Blog (STIB) zu Deep Web Research. Hmm, diesmal folge ich dann aber doch dem Hinweis auf die Virtual Private Library, wo dann diese Sache mit den STIBs etwas klarer wird:

The Virtual Private Library™ is powered by Subject Tracer Bots™ that continuously search, monitor and update for custom virtual library subject(s) that are listed as an unique ontology subject tree and directory including resource utilization of blogs, wikis, listserv® and news aggregators.

Etwas weiter darunter wird auf ein Interview mit diesem (langsam weniger mysteriösem) Zillman hingewiesen: The Future Of News: The Digital Information Librarian. Einmal mehr eine ganz interessante Perspektive auf den Beruf des Bibliothekars.  Gut gefällt mir auch das Zitat von Zillman:

The best person to identify and bring about new ways of managing information flows is the Librarian and more specifically the electronic reference librarian. This person has an immediate handle on what is happening with the flow of information and how to properly evaluate, disseminate and categorize all the incoming and outgoing information resources.

Was ist das Fazit? Neuer Blog in der Feedliste, ein paar nette Quellen zu Chatterbots und Deep Web Research und ich habe nun eine Ahnung was ein Subject Tracer Information Blog ist…

Mrz 082007
 

Aus dem „morgen mehr“ sind nun beinah zwei Woche geworden. Trotzdem wollte ich auch noch mal die Eindrücke des zweiten Tages festhalten.

Den ersten Beitrag Es geht um mehr als Suche! von Dr. Stefan Wess (Geschäftsführer Empolis) fand ich eigentlich sehr interessant. Im Wesentlichen ging es über Stichworte wie „Ein Begriff – viele Bedeutungen… und viele Synonyme“, „Informationsflut“ und Kosten von langwierigen Recherchen (durch Wissenschaftler) schließlich zur Begründung der Notwendigkeit eines semantischen Webs (und damit von Theseus). Nico Lumma, welcher an selbigem Tag einen Vortrag zu Blogs hielt, kommentiert diesen Beitrag von Dr. Wess in seinem Blog unter dem Titel Subventioniertes Leuchtturmprojekt mit 90% Eisberg eingehender. Selber hat mich der Beitrag in seinen Aspekten zu Synonymen, Ontologien und so weiter sehr an unser sehr schönes HAW-Seminar Wissensorganisation erinnert – vielleicht sollten wir mal Herrn Wess einladen. 🙂 Welch Zufall, dass die letzte Folie auch auf Vannevar Bushs Memex hinwies („As we may think„), von dem wir dieses Semester auch hörten. Sehr schön, aus bibliothekarischer Sicht, fand ich auch das angeführte Zitat nach der Delphi Group: „Lack of organisation of information is in fact the number one problem in information management and retrieval“ und „Suche ist ein Ausdruck mangelnder Organisation“ (wobei Suche in den Google-Farben geschrieben stand). Interessant auch die Begriffseinführung Informationslogistiker nach dem Prinzip „Die richtige Information, für die richtige Person, zur richtigen Zeit“.
Kein Wunder also, dass Herr Wess die Internetsuche als Schlüsseltechnologie bezeichnete, dabei aber die These aufstellte, dass gerade einmal 10% des Potentials genutzt (=Google), 90% also noch zu erschließen seien. Unter diesem Motto liefe im Grunde auch Theseus und die Abspaltung von Quaero leite sich davon ab, dass man mehr als „10% + 10%“ wolle. Ehrlich gesagt bleibt mir der Ansatz von Theseus als semantische Suchmaschine aber schleierhaft, wenn in der anschließenden Fragerunde die Frage „Ist eine weltweite Ontologie überhaupt möglich?“ geantwortet wird, dass dies bisher immer „in die Hose gegangen sei“ und das eine Ontologie nur lokal und für spezielle Anwendungszwecke Sinn mache (interessantes Beispiel übrigens tatsächlich Otto.de, wenn man z.B. die natürlichsprachige Anforderung „Ich brauche eine blaue Hose für meine Tochter“ in der Suchmaske eingibt).

Der folgende Vortrag Geht nicht, gibt’s nicht – Die lokale Suche wurde von Peter Neumann (Director Content & Portals, Allesklar.com AG) gehalten. Dabei ging es vor allem um die Erfahrungen mit meineStadt.de. Dabei wurden viele Nutzeraspekte aufgefächert – Geschlecht,Alter, Bildung etc. Quelle hierfür war vor allem die Studie Internet Facts 2006-II der AGOF-AG. Interessant ist doch, dass dort bei der Top 10 der generellen Produktinteressen, Bücher an erster Stelle liegen – würde man das erwarten? Weiterhin fand ich interessant, wie sich der Sucheinstieg der Nutzer aufschlüsselte. Dabei wurde die Ansicht der Branchen von Kiel als Beispiel herangezogen. Danach würden je 40% über die Suchmaske und über den Katalog einsteigen, die restlichen 20% über die alphabetische Branchen-Suche. Abgesehen davon, dass man das Ergebnis nicht ganz isoliert vom Nutzerspektrum der Seite betrachten solllte, finde ich es doch erstaunlich, dass der Katalog so hoch im Kurs steht (auch wenn es Sinn macht). Ansonsten ging es schließllich vor allem um kundenspezifische Angebote – und natürlich Werbung. Interessant war noch die Aussage, dass Qype als keine wirkliche Konkurrenz angesehen wird. Prinzipiell ist die Aussage, dass kein Mensch den Doktor um die Ecke eintragen würde (entgegen dem redaktionellen Angebot von meineStadt), jedoch einleuchtend. Erfolgsversprechender sei gegenüber dem rein user-generated-content eher die Ergänzungmöglichkeit durch den Nutzer.

Nach der Pause ging es mit dem Bereits erwähnten Vortrag von Nico Lumma Konversationen sind das Salz in der Suche weiter. Hier ging es um das bald startende Projekt blogmonitor.de, ein Tool zur Anaylse der deutschen Blogosphäre und Nachfolger von blogstats.de. Im Grunde ein Tool zur Trendanalyse, welche auch am ersten Tag schon Thema war, für Blogs. Amüsant fand ich in diesen Zusammenhang die Einführung des Begriffs Eitelkeitssuche, d.h. wenn ein Blogger seinen eigenen Blog analysiert. Ich denke für Blogleser ist es bereits schlüssig, dass eine Analyse der Blogossphere auch wirtschaftlich sehr interessant sein kann. Insofern waren auch die von Lumma gestellten Fragen „Wer bloggt“ und „Wer liest Blogs?“ interessant. Die erste Frage hatt, soweit ich das sehen konnte von meinem Platz, nur sehr wenige Meldungen (und bei denen bin ich nicht in die Nähe des Namensschildchens gekommen). Die zweite Frage hatte bei „monatlich“ noch einigermassen viele Meldungen, aber bei wöchentlich und täglich waren es vielleicht noch eine Hand voll…

Der folgende Vortrag Search Engine Marketing – Was geht, was lohnt? von Prof. Hendrik Speck war sehr interessant, aber mit fast 90 Folien, sehr vielen Quellenangaben und sehr vielen Erläuterungen auch extrem umfangreich. Sehr knapp zusammengefasst ging es um zum einen um den weltweiten Wandel in der Mediennutzung, natürlich mit Schwerpunkt auf der Internetnutzung. Zum anderen wurden daraufhin die große Lücke bei den Werbeinvestitionen im Internet gegenüber den Investitionen in den klassischen Medien dargestellt. Im Folgenden ging es entsprechend um (Google-) Adwords und Marktdruchdringung der Suchmaschinen über die Jahre, mit dem „überraschenden“ Zuwachs bei Google…
Ganz interessant war auch die graphische Gegeüberstellung der Anzahl durchschnittlich verwendeter Suchworte mit Zahlen von 2003 (OneStat) gegenüber Zahlen von 2007 (RankStat). Balkendiagramme zeigen dann doch sehr deutlich, dass es eine starke Tendenz zu mehr Suchworten gibt, wobei die Mehrzahl der Nutzer im Schnitt zwei Suchbegriffe verwendet. Die danach aufgeführte Liste der meistgesuchten Begriffe (welche dies sind erahnt man ja), läßt dann aber vermuten, dass die häufigste Kombination „+free +sex“ sein müsse. Ebenfalls nicht so überraschend neu (dafür aber sehr detailreich dargestellt), dass Nutzer selten über die ersten ein bis zwei Seiten der angezeigten Suchergebnisse hinausgehen. Hier wurde besonders häufig auf die Quelle iProspect verwiesen.
Im weiteren ging es dann um die Bewertung des Marktwertes von Web 2.0-Seiten, sowie den entsprechenden Bewertungskritierien. Die Folie Brief history of decline stellte dann gravierende Markteinbrüche der Geschichte, vom Wallstreet-Crash 1929, über die geplatzte Dot-Com-Blase im Jahr 2000 hin zum Jahr 2007 mit dem Punkt „Web 2.0 Bubble evaporates“, dar.
Persönlich hat mich der Vortrag sehr mit seinenganzen Zahlen erschlagen…

Nach dem Mittagessen wurde es dann bereits ziemlich leer im Raum – anscheinend rief das Wochenende. Dabei war der folgende Beitrag Deep Web – Suchen wir was man finden könnte? von Dr. Lewandowski ebenfalls sehr interessant, aber vielleicht tatsächlich nicht so sehr aus einer Marketingperspektive. Die Folien zu dem Vortrag kann man übrigens unter www.durchdenken.de/lewandowski abrufen (Direktlink PDF). Zum einen ging es um die Defintion des Deep Webs, vereinfacht dargestellt also der Teil des Webs, welcher nicht von Suchmaschinen erschlossen wird (werden kann), und zum anderen um die geschätzte Größe. Die Herleitung der Größe wurde recht feinstufig unternommen. Interessant ist dabei, dass nach Schätzungen von Lewandoski und Mayr die Größe bei weniger als 100 Milliarden Dokumenten liegt, wobei diese Ergebnisse auf einer kritischen Auseinandersetzung insbesondere mit den Ergebnissen von Bergmann (500 Milliarden Dokumente) gründen.
Die Größendimensionen sind zwar spannend, noch spannender ist jedoch die Frage: Wie kommt man daran? Ein Teil des Problems sind natürlich die Formate, d.h. Bilder, Video, Audio, Flash oder auch gepackte Dateien. PDFs, sofern sie als Volltext vorliegen (also keine „Bild“-PDFs sind), werden ja mittlerweile von den meisten Suchmaschinen indexiert. Für Bilder zeichnen sich langsam auch Lösungen ab (der Name der Gesichtserkennungssuchmschine fällt mir gerade jedoch nicht ein), die über die Bereitstellung von Metadaten hinausgehen. Bei Audio- und Video nehme ich an, dass noch ein ganzes Weilchen auf die Inhalte über den „umgebenden“ Content zurückgeschlossen werden muss, allerdings glaube ich auch nicht, dass hier die wichtigsten zu erschließenden Quellen liegen. Die größten „Schätze“ liegen sicher gut verborgen in Datenbanken. Der Vorteil von Datenbanken, ihre Strukturiertheit und die feldspezfische Suche (u.a.), ist bei einem Volltextindex, wie in Suchmaschinen erstellen, ihr Nachteil.
Ein Vorschlag zur Lösung dieses Problemes ist, dass zweigleisig gefahren wird, d.h. das die Datenbankinhalte noch einmal flach abgebildet werden – z.B. als HTML-Seiten. Als Beispiel für eine solche Lösung wird auf den Folien imdb.com genannt. Betrachtet man eBay oder Amazon, dann stecken dort wohl ähnliche Ansätze dahinter.
Mir kam dabei gleich der Gedanke, dass selbst wenn Nutzer eine Suchmaske für alles wünschen, dass solche indexierbaren flachen Hierarchien aber zugleich Recall und Precision stark negativ beeinflussen könnten. Immer häufiger fällt mir doch auf, dass ich ein Problem habe, recherchiere, aber die ersten Ergebnisse immer Amazon, eBay, idealo oder auch Foren sind, welche bei inhatlichen Fragen selten weiterbringen (was dazu führt, dass ich dann mit mäßigem Erfolg versuche diese über „-amazon -eBay …“ auszuschliessen). Das hat mich dann auch veranlasst bei Exalead den Vorschlag (Möglichkeite hier: Englisch, Deutsch) zu machen, dass Refines der Suche auch nach „Quellart“ oder Ausrichtung (Kommerziell, Foren, Mailinglisten etc.) möglich sein sollten. Das erfordert (dummer Weise) natürlich wieder einen hohen intellektuellen Aufwand bei der Definition solcher Cluster, es sei denn man überläßt es dem Nutzer selber seine permanenten Exclude-Filter zu definieren. Da mach ich mir vielleicht lieber an anderer Stelle Gedanken drüber – sprengt hier wirklich den Rahmen.
Es gibt aber natürlich auch interessantere Quellen, welches ähnliches bereits machen. E-Lis z.B. ist im Wesentlichen ja ebenfalls flach organisiert. Die Lösung zur Erschließung des Deep Web scheint derzeit also am häufigsten eingesetzt zu werden, soweit dies vom Anbieter überhaupt gewünscht ist – was ja noch eine ganz andere Frage ist.
Die zweite Möglichkeit ist die spezieller Suchmaschinen, d.h. in der Regel Metasuchmaschinen für eine begrenzte Zahl an (fachverwandten) Datenbanken, die gegenüber Suchmaschinen zwar erweiterte Suchmöglichkeiten bieten, jedoch natürlich nicht das Potential der einzelnen Quellen ausnutzen. Im Grunde machen ViFas ja nichts anderes. Für die als Beispiel genannte Deep-Web-Suchmaschiene Turbo10 („Search 804 Deep Net Engines“) bin ich aber irgendwie zu blöd – weder im IE noch im FF erhalte ich hier Ergebnisse (außer JavaScript-Fehler). Interessante Angebote sich eigene Suchmaschinensets zusammenzustellen gibt es aber ja auch sonst. Hier hat der Blog AgoraWissen übrigen häufig sehr interessante Beiträge – z.B. der Beitrag zu Trovando.
Die dritte Möglichkeit die Lewandowski nennt, ist dass reguläre Suchmaschinen Links (Shortcuts) zu spezielleren Suchmaschinen oberhalb der eigentlichen Ergebnisse liefern. Dies wird bereits auch bei den meisten Suchmaschinen in der ein oder anderen Form umgesetzt, so erhält man bei Lycos z.B. gleich eine Grafik zum aktuellen Aktienkurs, wenn man einen Unternehmsnamen sucht. Was (wer) dann angezeigt wird ist allerdings eine andere Frage.
Insgesamt wird das Deep Web und Lösungen zu seiner (sinnvollen) Erschließung aber auch weiterhin ein spannendes Feld bleiben. Vielleicht kann man ja irgendwan bei Google&Co auch „bibliothek hamburg orwell“ eingeben und kriegt ein „passendes“ Ergebniss? 🙂

Der letzte Beitrag der Konferenz war Rechtliche Haftungsfragen für Internet-Anbieter (Dr. Arnd Haller, Leiter Recht, Google Germany). Der Vortrag war sehr interessant und wurde anschaulich, angereichert mit vielen Beispielen, gehalten. Ich spar es mir aber an dieser Stelle auf die ganze gesetzlichen Haftungsregelungen für Internetanbieter einzugehen. Das Heise-Urteil ist ohnehin wahrscheinlich den meisten bekannt und das neue Telemediengesetzt (TMG) geistert derzeit auch durch die Kritiken sämtlicher Zeitungen und Zeitschriften (oder der Blogosphere).
Interessant war natürlich auch die Frage des zweiten Vortragsteils: Ist das deutsche Urheberrecht „Web 2.0–tauglich“? Hier wurden aber vor allem weitere Fragen gestellt, denn Antworten gegeben („Urheberrecht als Hindernis für die weitere Entwicklung des Web 2.0?; „Ausweichstrategien für Host- und Content-Provider ins Ausland realistisch – User generated content nur noch außerhalb des deutschen Rechtsraums?“). Natürlich durfte hier auch nicht der Hinweis auf die Fair-Use-Klausel des amerikanischen Urheberrechts fehlen.
Der dritte Teil Ausblick: Was gibt´s Neues in 2007? war zugleich quasi das Fazit, nämlich dass man erst mal abwarten müsse, was sich 2007 im Bereich des Urheberrechtsgesetzes, der zu erwartenden Revision des TMG und bei relevanten Entscheidugen des BGH ergibt. Da kann man, als auf einmal beinah jounalistisch tätiger Blogger, ja nur gespannt sein (hey, solange ich keinen Lektor beschäftige, sollte die Bewertung über die Zahl der Zeichensetzungsfehler passieren! :D).

Nun, als Fazit dieser Konferenz komme ich zu dem Schluss, dass die Konferenz spannende Themen und Personen aufbot, dabei aber Fragen des Marketings sehr beherrschend waren. Begriffe wie Recherche- oder Informationskompetenz, Recall und Precision oder auch Nutzergruppen waren dabei eher implizit ein Thema, obwohl sich die Macht der Suchmaschinen auf lange Sicht wohl über ihre Qualität definieren wird – hoffentlich auch ihrer Transparenz. Nicht ganz unwesentlicher Aspekt der (einer derartigen) Konferenz ist sicher aber auch das Knüpfen von Kontakten („Pflegen und erweitern Sie Ihr Netzwerk“) – Exzellenz wird auch von den Teilnehmern erwartet, wenn man die Frage der Dame neben mir zu Beginn der Konferenz betrachtet: „HAW – sind sie Suchmaschinenexperte?“ 😀
Alles in allem waren mir neue Ideen und Konzepte wie die Trendanalyse, „Long Tail“ und „Vertical Search“ doch sehr spannend und letztlich kann es ja nur das eigene Blickfeld erweitern. Es weckt eine ganz andere Aufmerksamkeitsspanne, wenn man z.B. letzte Woche zweimal den Begriff Long Tail bei netbib findet oder der Rechercheblog ausführlich über ZoomInfo (ZoomInfo: Recherche von Unternehmen und Mitarbeitern) berichtet. Denk ich an die Diskussion der Verlagsvertreter, dann trifft auch das Thema Magazine Publishing in a Web 2.0 World (Folien eines Vortrags, übrigens Titel der Folie 15: „Web 2.0 Priciples: The Power of the Tail“) bei David Rothman voll ins Schwarze – im Grunde wird hier die halbe Konferenz zusammengefasst, allerdings ohne von Kannibalisierung zu sprechen.
Alles in allem also eine gute Erfahrung – auch wenn diese mir zukünftig immer noch mit 1800 EUR zu teuer wäre. Umso mehr Dank an Herrn Lewandoski!

Feb 232007
 

Insgesamt klingt das nach einer interessanten Veranstaltung. Es scheint aber, als sollten die Agierenden unter sich bleiben. Wer ist bereit für 2 Tage mehr als 2000 Euro (incl. MWSt.) auszugeben? fragte der @-web-Suchmaschinen Blog vor einem Weilchen und ich mich selber auch. Nun hatte ich richtig Glück, dass unser neuer „Erstsemestler“-Professor Dr. Lewandowski ebenfalls einen Vortrag bei der Euroforum-Konferenz Die Macht der Suchmaschinen – Informationsdienste als Wachstumsmarkt hielt. Das waren damit zwei spannende Tage, wobei ich mir teilweise doch schon eigenartig unter all den Vertretern von Verlagen, Suchmaschinen, Sendeanstalten, Universitäten usw. vorkam – trotzdem gab es in den Pausen auch angenehme Gespräche und ich bin immerhin um zwei Visitenkarten reicher 😉

Das Programm war enorm umfangreich und das werde ich hier auch kaum übersichtlich zusammengefasst bekommen. Der erste Beitrag Web 3.0 = Web 2.0 + Semantisches Web war jedenfalls definitionstechnisch schon sehr interessant. zum einen ging es in diesem Beitrag von Dr. Wahlster um SmartWeb (~“mobiler Zugriff auf das semantische Web“), zum anderen um das Quaero-„Spaltprodukt“ Theseus, dessen Fokus entgegen Quaeros statistischem Auswertungsansatz auf semantischen Technologien liegt. Im Wesentlichen gingen die Informationen zu Theseus aber nicht über das hinaus, was nicht auch schon in einem Heise-Artikel stand (auch das Golf-Beispiel wurde genannt). Aufschlussreich fand ich auch die Folie Drei Ebenen von Markupsprachen im Web:
(1) Form = HTML; (2) Struktur = XML; (3) Inhalt = OWL (Web Ontology Language)
und die dazugehörige Gleichung Inhalt : Struktur : Form = 1 : n : m.

Danach folgte eine Diskussionsrunde zur Macht der Suche – Kampf in einem dynamischen Markt. Google (bzw. einer der Vertreter) war hier meines Empfindens nach sehr dominant, aber letztlich war Googles allgemeine Marktdominanz (Quasi-Monopol) ohnehin mal mehr, mal weniger direkt den ganzen Konferenzverlauf ein wichtiger Punkt (Titel einer Folie eines anderen Beitrages „Nur wer von Google gefunden wird, wird im Netz auch wahrgenommen“).

Der nächste Beitrag – Bedeutung von Suche im Telekommunikations- und IP-Geschäft – behandelte vor allem dieses Thema im Bezug auf das T-Online-Suchportal. Besonders interessant wäre dies sicher auch für die Gruppe des Projekt Strategien für die lokale Suche bei T-Online im nächsten Semester gewesen. Persönlich fand ich die Aussage interessant, dass Trends bei der Suche frühzeitig analysiert werden sollten. Hierbei wurde das Schnappi-Beispiel genannt, dass „Internet-intern“ lange vor dem richtigen (Medien)-Hype schon ein großer Erfolg war. Dieses Thema der Trendanalyse wurde später vor allem im Vortrag Was sucht der Mensch? von Dr. Höchstötter nochmal sehr deutlich aufgegriffen. Eine sehr verkürzte Darstellung gibt es bei Topic Flux. Primär ging es bei der ganzen Veranstaltung im wirtschaftliche Ausnutzung der Macht von Suchmaschinen. In diesem Falle hieße dass, das man auf solche Analysen mit dem Setzen entsprechender Kategorien und Hotspots auf seinem Portal reagiert oder auch auf sich abzeichnende Peaks mit Printangeboten reagiert. Im Verlauf des Vortrags kam bei mir dann noch die – möglicherweise eher absurde – Frage auf, ob eine solche Queryanalyse in OPACs nicht auch bei Bibliotheken zu Qualitätsverbesserungen oder auch für Erwerbungsentscheidungen genutzt werden könnte – zugegeben etwas wilde Idee, aber vielleicht würde sich ein kleines Brainstorming lohnen?

Der Vortrag Vertical Search – Neue Geschäftsmodelle für Verlage und ISPs hat mich lange etwas ratlos dastehen lassen. Dabei lässt sich der Begriff Vertical Search im Grunde recht einfach herleiten, wenn man vertikal als „spezialisiert“ interpretiert (gegenüber horizontal als „in die Breite“). Spezialisierte Suchmaschinen wären ja noch nicht so aufregend. Meines Verständnises nach ging es hierbei aber eher um spezialisierte (Unternehmens)-Portale, wobei insbesondere auch semantische Techniken zum Einsatz kommen. Diese allerdings nicht nach dem Open Domain-Ansatz, sondern eher in einem kleinen abgesteckten (besser „kontrollierbaren“) Teilbereich des Webs (eines Angebotes). Oder anderes Stichwort zur vertikalen Suche: Eingrenzung des Suchraumes. Da mit rein spielt dann schließlich natürlich auch Web 2.0 mit dem user generated content – nettes Beispiel übrigens die Seniorensuchmaschine Cranky. Sehr interessantes Beispiel für den „semantischen Teil“: die Firmensuchmaschine ZoomInfo (Info-Link).

Danach wurde es erst mal verlagsspezifischer mit dem Vortrag Überleben im digitalen Informationsmarkt Marktveränderung für Verlage (am Beispiel von Kress) und der folgenden Diskussion mit dem Thema Print vs. Online – Kannibalisierung oder Symbiose? Der Kressvortrag hat mir hinsichtlich seines Fazits gefallen:
(1) Testen, testen, testen und an den Nutzer denken; (2) Einfach sein und bleiben […]
Obwohl das eine sehr gesunde Einstellung ist, blieb – insbesondere nach der Diskussion – doch ein wenig der Eindruck, dass man dem Selbstverständnis nach einer „Raubtiermentalität“ (Kannibalen) ausgeliefert sei, andererseits aber doch auch eine gewisse Unbesorgtheit bezüglich der Zukunft der Print-Produkte herrschte. Allein stand ich mich diesem Eindruck jedenfalls nicht (wieso hörte ich danach blos den Witz von der Schnecke:
„Fragt ein Beamter den anderen ‚Na, du siehst aber lädiert aus‘. Antwort: ‚Ja ich hatte einen Unfall mit einer Schnecke‘. ‚Wie konnte denn das passieren? Ausgerutscht?‘. ‚Nein, sie hat sich hinterhältig auf dem Weg hierhin von hinten angeschlichen.'“
Welch eine Ironie (!), dass mir bei der Selbstdarstellung der Verlage (welche diesen Witz – in einer Pause – provozierte) auch ständig das Bild unserer hochanpassungsfähigen, zukunftsgerichteten Bibliotheken im Gedanken herumschwirrte. Trotzdem nochmal deutlich: das war mein nur Eindruck. Bei der Diskussion war auch ein Vertreter der Zeit beteiligt. Speziell zu Zeitschriften gab es vor kurzem bei Zapp einen sehr interessanten Beitrag, welcher aber nicht ganz dem Tenor dieser Diskussion entsprach – in dem online abrufbaren Beitrag Rasante Entwicklung – Wachsende Angebote im Online-Bereich der Zeitungen scheint mir die Gegenwartsanalyse nämlich etwas „präziser“.

Zwischen Kress und Diskussion gab es noch einen Vortrag von Dr. Wessling, welcher aber nicht im Programm auf der Euroforum-HP aufgeführt ist. Der Beitrag hatte das Thema Herausforderungen und Chancen für Verlage im digitalen Umbruch. Auf die – anschaulich präsentierten – Inhalte gehe ich hier nicht ein, da Herr Wessling sein eigener bester Schüler ist und sogar Videos seiner Vorträge online bereitstellt. Ein Fazit-Punkt sei trotzdem noch genannt, da er dem von Kress sehr änhlich ist: „Fachverlage müssen neues ausprobieren, schnell sein und Irrtümer zulassen“. Jetzt bin ich wirklich gespannt, ob ich auf dem Leipziger Kongress eine ähnlich gelagerte Aussage (natürlich für Bibliotheken) hören werde – oder wird es dort nur Selbstmitleid geben? 😉

Als nächstes folgte ein Beitrag von Google mit dem Thema Google – Erfolgskonzepte und Zukunftsstrategien. Tja, obwohl ein (sehr) dicken Ordner mit allen Folien der Vorträge ausgegeben wurde, lag an dieser Stelle nur ein Blatt mit dem Hinweis „Es gilt nur das gesprochene Wort“. Nun, besonders viele Notizen habe ich mir auch nicht gemacht, da doch viele Aussagen jetzt auch so neu nicht waren. Interessant war aber die Erwähnung des Long-Tail-Konzepts nach Chris Anderson (Anderson ausführlich dazu in Wired-Artikel The Long Tail). Im Kern ist die Aussage dieser These, dass Bestseller einfach zu finden und in großen Stückzahlen zu verkaufen sind (sozusagen der „Kopf“ sind. Der „lange Schwanz“ hingegen sind die Nischenprodukte, welche z.B. von Liebhabern gekauft werden. Das Potential der Suche liegt dann darin, dass diese Nischen gut erschlossen werden, dass also auch mit diesem „Kleinvieh“ Umsatz generiert wird – in der Gesamtheit sogar erheblich mehr als die Bestseller alleine es tun (also: Die Masse macht’s). Ich muss gestehen, dass ich den Vortrag sonst so genau nicht mehr erinnere, aber mein zweites Stichwort auf dem Zettel war schon sehr dominierend: Werbung. Wie aber das Stichwort zu O’Reilleys Rough Cuts Service mit dem Googel-Beitrag zusammenhängt, kriege ich nicht mehr zusammen. Warum soll ich aber blos Geld für eine sich ständig verändernde Preprint-Ausgabe eines Buches zahlen? Fällt vielleicht in die Kategorie „neues ausprobieren, schnell sein und Irrtümer zulassen“…

Danach folgte der bereits erwähnte Vortrag von Dr. Höchstötter und schließlich der lang erwartete Vortrag vom Exalead Mitbegründer und CEO Dr. Bourdoncle: Exalead – a different way to search. Suchmaschinenbetreiber scheinen nicht gerne etwas „handfestes“ zu Verfügung zu stellen und so gab es auch hier nur den Hinweis „Es gilt nur das gesprochene Wort“. Es war der letzte Beitrag nach etwa acht vorangegangenen Stunden und er wurde in Englisch gehalten. Das auf einmal etwas studienstimmung aufkam (viele verabschiedeten sich nach 15 Minuten aus dem Raum), habe ich jetzt einfach zur Wahrung meines Selbstwertgefühles darauf geschoben, dass ich nicht der einzige war, der Probleme hatte dem Beitrag zu folgen. Es lag sicher nicht am Englisch oder am Vortragsstil des Redners, aber manchmal war die Akkustik (es wurde sowohl bei Rednern, als auch bei Fragen, Mikrofone eingesetzt) nicht ganz optimal. Klingt wie eine Ausrede und ist es vielleicht auch (obwohl ich in der darauffolgenden Diskussion meine den leisen Satz gehört zu haben – er hatte gerade etwas gesagt und leicht, vom Publikum nicht reflektiert, gelacht – „Errm, is anybody listening at all?“. Vielleicht nur mein Phantasie… Im Wesentlichen wurde natürlich das Exalead-Konzept vorgestellt, wobei ein Grundgedanke hinter dem Refining wohl war, dass viele Suchen nach dem Prinzip „Discover by Accident“ verliefen. Ein Bibliothekar würde das vielleicht als Quick & Dirty-Recherche bezeichnen, bei der man sich den „richtigen“ Suchbegriffen durch Try and Error annähert. Das Refining minimiert zumindest den Error-Anteil naturgemäß schon recht wesentlich. An dieser Stelle kam mir auch der Gedanke an die Worte eine vorherigen Beitrags, in welchem (sinngemäß) die so bezeichnete „Starrheit von Datenbankmodellen“ dem Refining gegenübergestellt wurde. Einmal mehr „wilde“ Assoziationen zu Bibliotheksopacs (oder auch WorldCat)…
Ansonsten wurde auch auf die Monopolmacht von gewissen Suchmaschinen eingegangen, aber genaueres kann ich da aus genanntem Grund und sehr bedauerlicher Weise nicht zu sagen.

Mit der Diskussion schloss dann auch der erste Tag. Zu dem ebenfalls sehr spannenden zweiten Tag, werde ich morgen noch was sagen. Ich glaube die Länge dieses Eintrags überschreitet ohnehin schon die Belastbarkeit eines „Monitorlesers“. Insgesamt war es auf jedenf Fall ein sehr spannender, anregender aber auch unterhaltsamer Tag. Eine Frage, welcher diese Tag für mich offen gelassen hat, war, ob es den prototypischen Sucher gibt? Das Wort „Zielgruppe“fiel keinmal – es gab nur den/die Suchenden. Vielleicht war dieser Aspekt aber auch für alle Anwesenden bereits geklärt, da sie jeweils ihren eigenen Kontext „mitbrachten“…

Noch ein kleiner Kommentar: Namen habe ich nur sehr bedingt erwähnt (soweit sie nicht im Programm stehen), da auf der Teilnehmerliste explizit steht, dass diese nur zum persönlichen Gebrauch genutzt werden darf…

Feb 202007
 

Heute irgendwann entdeckte ich den Beitrag Verbesserte Google-Suche: Digger beim MBI Blog. Nachdem ich vor kurzem Exalead etwas unter die Lupe genommen habe, fand ich den Beitrag sehr spannend. Nach einem ersten Test (Account nach wenigen Stunden bekommen) fand ich die Exalead-Variante schon besser, aber das ist natürlich nur ein Ersteindruck.

Als Pen&Paper-Rollenspieler* (One Thing You Didn’t Know About Me ;)) ist mein erster Suchbegriff ohnehin immer D&D [2] (ggf. wäre auch DnD für Dungeons and Dragons korrekt). Nunja, das Ampersand (kaufmännische und?) ist natürlich ungünstig, aber trotzdem war Exalead da insgesamt überzeugender.

*…und nein, PC-Rollenspiel hat nichts mit (Fantasy)-Rollenspiel im klassischem Sinne zu tun! 😉

Feb 082007
 

In der aktuellen Chip findet sich die eine kurze Meldung mit dem Titel Neue Suchmaschine will Google angreifen. Gemeint ist Exalead, welche auch ein Teil des Quaero-Projektes war. In Webzeit gemessen ist sie so neu zwar nicht (als das Unternehmen Exalead sogar seit 2000) und beispielsweise bei netbib finden sich auch einige Beiträge zu der Suchmaschine, aber interessant ist sie dennoch.

Geht man auf Exalead.de, dann erhält man bei deaktivierten Cookies zwar erst mal Englisch – ein ziemlicher Fauxpas, da man sich zum Umstellen erst mal in die Preferences muss -, aber insgesamt sieht es „googlig“ aus. Im Grunde funktioniert die Suche auch wie bei Google. Was aber gleich auffällt: Während es bei Google zwar viele Advanced Search Operators gibt, muss man sich dort ziemlich weit durchklicken, bis man diese findet. Zudem ist die Advanced Search bei Google auch nicht sonderlich übersichtlich. Bei Exalead ist die Advanced Search hingegen sehr schön übersichtlich und bequem.

Diese erweiterten Suchmöglichkeiten miteinander zu vergleichen ist nicht ganz einfach, da Googe vieles transparant „einfach“ macht (ob ein Wörterbuch hinterlegt ist oder nur eine Worformreduktion stattfindet weiß ich immer nich nicht bei Google, aber gefunden wird ja jedenfalls normalerweise der Singular zum eingegebenen Plural). Als Nutzer bereitet mir diese Transparenz aber manchmal auch Probleme, bei der Bewertung der Ergebnisse, wobei bei Singular oder Plural natürlich die Phrasensuche noch Sicherheit gibt. Im Grunde unterscheidet sich Exalead da aber nicht unbedingt von Google. Ebenso wie Google gibt es dort auch die boolsche Operatoren wie AND / OR / AND NOT und die Suchmöglichkeiten nach bestimmten Top-Level-Domain, in Titeln oder ähnlichem unterscheiden sich ebenfalls überhaupt nicht im Angebot. Die Suche in einem bestimmten Zeitraum ist bei Google auf feste Zeiträume begrenzt, bei Exalead jedoch frei anzugeben. Obwohl ich es nicht getestet habe, wird die Suche innerhalb von Zeiträumen wahrscheinlich auch hier sehr schwach sein. Langsam kommen Zeitschriften/Zeitungen, die Artikel Online stellen zwar dahinter, dass eine Datumsangabe sinnvoll ist (eigentlich ist sie bei jedem Dokument sinnvoll), aber insgesamt sind die Ergebnisse aus diesem Grund wohl noch (?) schlecht.

Was ist bei den grundsätzlichen Suchmöglichkeiten, abgesehen von der angenehmeren Nutzung selbiger, dann eigentlich verschieden oder besser/interessant? Nun, als AltaVista noch Nummer eins war und Google langsam am Horizonz auftauchte, erinnere ich mich mit ziemlicher Sicherheit, dass Google da noch Wildcards (*) und den NEAR-Operator kannte. NEAR ist mittlerweile anscheindend bei Google über eine Relevanzanalyse (je näher, je besser?) abgelöste worden. Wildcards – umm, automatisch und dann erneut nach Relevanz sortiert? Persönlich finde ich es nicht unbedingt schlecht, dass Exalead mir diese Möglichkeit explizit zur Wahl stellt. Was Exalead mit spellslike („schreibt sich wie“) anbietet, ist bei Google GoogleSuggest. Exalead bietet allerdings auch Alternativen nach einer Suche an („Did you mean: …“), was also spellslike an Vorteilen bringen soll ist mir unklar. Die Variante soundslike („Klingt wie“), wird man wohl auch nicht wirklich nutzen, aber vielleicht fallen mir auch gerade nur die einzigartigen Möglichkeiten, die diese Suche eröffnet, nicht ein.

Was wirklich interessant sein könnte, ist die Suche nach regular expressions (reguläre Ausdrücke). Reguläre Ausdrücke sind sehr mächtig, allerdings auch recht kompliziert (ich muss jedes Mal wieder „von vorne“ anfangen, eine ganz gute Übersicht, neben den Wiki-Artikeln, gibt’s aber z.B. hier). Wer ein Programm zur Erstellung von regular expression haben will, der kann z.B. mit RegexPlor herumspielen (dazu gibt es auch ein Tutorial-Video).

Von den Suchoperatoren her ist dies aber die einzige sich wesentlich von Google absetzende Option, sicher aber auch eine, die nicht von vielen genutzt werden wird.

Bis jetzt haben wir also quasi einen Google-Clone – bedenkt man den Erfolg von Google, ist dies ja auch keine schlechter Ansatz. Interessant wird es eigentlich auch erst, wenn man eine Suche abgeschickt hat. Clustering ist nun auch nicht wirklich neues mehr und mittlerweile bei einigen Suchmaschinen umgesetzt – dort dauert es aber häufig sehr lange und ist manchmal auch irrtierend in der Darstellung. Hier erhalten wir hingegen unser Ergebnis wie bei Google gewohnt, wobei man wahlweise noch kleine Vorschaubilder der Ergbnisse und kleine Ergänzende Informationen haben kann (meis: „This result has no audio, video or RSS and is not listed in the web directory.“).

Daneben gibt es jedoch noch eine „Refine Your Search“-Box, welche angenehm plaziert ist. Hier kann man dynamisch im Ergebnisset nach Related terms, Multimedia, Languages, Directory und File types filtern. Die Vorgeschlagenen Filter können beliebig hinzugefügt und entfernt werden. An dieser Stelle kann ich es mir nicht verkneifen darauf hinzuweisen, dass andere änhliche geniale, oder wie im Falle von Web of Sciene noch genialerere Lösungen, bestehen. (PICA)-Bibliotheken dieser Welt schaut euch mal die WorldCat an (wenn das noch beta ist, was sind dann die grauen OPACs auf unseren Schirmen?)!

Das Clustering und das damit verbundene dynamische Refining halte ich für eine sehr zukunftsträchtige Technik. Es wundert, dass Google das noch nicht anbietet, aber vermutlich wird dies auch dort kommen. Wünschenswert wäre es, denn so schön Exalead ist, so mager sind doch die Ergebnisse. Ein (sehr) großer Teil des Indexes scheint auf dem Index des Open Directory Project aufzubauen (darauf bezieht sich der Filter Directory). Ansonsten scheint der eigene Index eher klein zu sein. Die Suche nach meinem Namen fördert doch – relativ zu Google, sehr wenig, nicht mal diesen (immerhin ab und an mal aktualisierten) Blog. Andererseits interessant, dass bei a-step noch keiner gemerkt hat, dass mein privater DynDNS-Webserver schon lange nicht mehr permanent läuft (wozu habe ich eigentlich den Quellcode geschickt – zugegeben: so toll war’s auch nicht, kriegen wir mittlerweile besser hin :D). Noch nie bei Google gefunden hingegen, dass auch meine dynDNS-Adresse indexiert worden wäre – da ist doch tatsächlich die Hausaufgabe aus IuK aus dem 2. Semester zu finden. Gott sei dank ist unter der Adresse beim Internet Archive nichts zu finden – nicht das da was illegales gewesen wäre, aber komplett eingescannte Regelwerke (Rollenspiel), dazu schön in einer Datenbank organisiert, aber nur zum Selbstnutzung bestimmt, könnten schon theoretisch Ärger machen. Wieder was gelernt – irgendwer indexiert auch dnymische Adressen.

Mit dem Refining kann man aber auch sehr viel Spaß haben. Gibt man netbib (wichtig: deutsch als Oberfläche in den Preferences angeben; nicht als gesuchte Sprache) kam gestern noch Klaus Graf als zweiter verbundener Begriff (heute letzter). 🙂

Spaß „bei Seite“: Im Fazit stell ich fest, dass mir die Features und ihre Umsetzung bei Exalead gefallen, allerdings scheint mir der Index doch sehr schwach zu sein (auch bei weniger egozentrischen Suchen). Im Grunde würde ich mir einfach die Advanced Search und das Refining in der Exalead-Form bei Google wünschen (umgekehrt, also Index von Google bei Exalead, scheint mir unrealistischer). Für die ein oder andere Suche oder auch einfach um verwandte Begriffe zu finden und diese dann bei Google einzustetzen, ist sie aber vielleicht ein guter Ansatz.

Für ein Multimillionen-Euro-Projekt wie Quaro, wäre dieses Ergebnis aber doch schwach…

Was mir noch auffiel: Usage Rights-Filter bei Googles Advanced Search – da hab ich ja was verpasst.

Tja, langsam hätte ich Lust in zwei Wochen zu der Euroforum-Veranstaltung Die Macht der Suchmaschinen zu gehen. Mag mit jemand 1800,- spenden? Bahnkarte, Hotel und Verplfegung brauche ich nicht, da es in Hamburg ist 🙂

Dez 162006
 

Es ist die Woche der Firefox-Erweiterungen in diesem Blog. Nachdem ich vor kurzem Gnosis entdeckt habe, gibt es noch zwei die in dem großen Bereich „Information Retrieval“ nicht ungenannt bleiben sollten. Web Search Pro nutze ich schon eine ganze Weile, das Dynamic Web Project hab ich hingegen erst vor ein paar Tagen entdeckt. In diesem Beitrag erstmal zu Web Search Pro. Zum Dynamic Web Project-Beitrag geht es hier.

Web Search Pro

(Bei www.captaincaveman.nl/ [2.5] oder bei addons.mozilla.org [nur 2.4]; Bilderstrecke bei Caveman)

Diese Erweiterung nutze ich schon eine ganze Weile und empfinde sie als sehr nützlich. Bei Erweiterungen.de ist es aber nicht zu finden und unter den gern gebloggten Top 10 FF Extension findet es sich auch quasi nie – ausnahme David Rothman, allerdings in einem anderen Blog und zu einer älteren Version. Das klassische Suchfeld von Firefox kennt wohl jeder und viele nutzen es vermutlich auch. Wer nur mit Google sucht, dem mag dieses Suchfeld reichen, aber das die „Don’t be evil“-Suchmaschine nicht immer der goldene Weg ist, sollte sich rumgesprochen haben. Die Liste dort kann man zwar beliebig erweitern über kleine Plugins, welche sich unter mycroft.mozdev.org finden. Mehr als eine große, höchstens alphabetisch sortierte, Liste von Suchmaschinen hat man dann aber noch nicht. Wer nur Google, Amazon und Wikipedia nutzt, der wird auch hier noch die Übersicht behalten, aber schön wäre es doch, wenn man einfach mehere Suchmaschinen nutzen könnte oder vielmehr zu deren Nutzung auch motiviert würde.

Web Search Pro kann das alte Suchfeld ersetzen oder ergänzen (als zweites Suchfeld, eine Variante, welche ich recht praktisch finde). In alten Versione (<2.5, welche es derzeit ausschließlich bei www.captaincaveman.nl/ gibt) gab es vorgegeben Kategorien, in der aktuellen kann man jedoch eigene erstellen. Ebenfalls neu in der aktuellen Version ist, dass man Suchmaschinen nicht mehr innerhalb der Erweiterung hinzufügt, sondern dass die Liste jetzt online (websearchpro.captaincaveman.nl/) geführt wird – im übrigen macht der Entwickler sich da eine Heidenarbeit, alle Vorschläge zu prüfen und einzpflegen. Eigene Suchmaschinen können auch direkt hinzugefügt werden, eine Mini-Anleitung gibt es dazu im Forum. Suchen kann man dann über das Suchfeld oder nach einem Rechtsklick auf ein markiertes Wort über das Kontextmenü, wobei man einzelne Suchmaschinen oder ganze Gruppen (=Kategorien) wählen kann.

Kategorien, große Liste verfügbarer Suchmaschinen und Kontextsensitive Suche – sollte das so spannend sein? Nein, denn so neu ist das nicht und das lästige Klicken bleibt (Tippen, Suchmaschine wählen, Abschicken). Im Grunde ist es wie das Startmenü bei Windows – kaum einer nutzt es, da man zu lange zum Ziel braucht. Das Kontextmenü könnte schon mehr Anklang finden, beachtet man, dass viele Windows nutzer gerne „Rechtsklick-Kopieren-Rechtsklick-Einfügen“ nutzen, allerdings ist es dafür eigentlich auch schon eine Ebene zu tief verschachtelt. Man kann nun aber auch einzelnen Suchmaschinen Shortcuts zuweisen, aber es ist fraglich, ob Nutzer das mehrheitlich tun würden (obiges Beispiel wäre „STRG+C – STRG+V). Ein netten Ansatz bietet aber die Quick Type Search (seit ver2.5), bei der sich über STRG+Q ein kleines Fenster öffnet mit allen Suchmschinen zu übersichtlicheren Auswahl – ganz optimal ist es aber noch nicht.

Nein, der Clou liegt bei Web Search Pro woanders – und zwar in den Drop Zones. Drop Zones funktionieren ganz einfach. Über die Optionen der Erweiterung kann man bis zu 16 Suchmaschinen (4×4) bestimmten Bereichen des Browserfensters zuweisen – wie das bei mir aussieht, kann man links sehen (klicken für größeres Bild). Einmal zugewiesen, aktiviert man sie, indem man ein Wort (Doppelklick) oder mehrere Worte in der aktuellen Seite markiert. Sobald man den markieren Bereich „zieht“ (das funktioniert genauso wie überall sonst auch in Windows – eine Funktion die gegenüber den anderen sogar häufig genutzt wird) erscheinen die Suchmaschinen. Jetzt muss man nur noch auf der gewünschten Suchmaschine „loslassen“ und schwupp öffnet sich ein neuer Tab – wie dies genau geschieht ist recht gut konfigurierbar. Findet sich also auf der Webseite ein unklar Begriff? Doppelklick und auf Wikipedia ziehen. Ist ein Buchtitel genannt, den man gerne haben würde? Doppelklick und auf Amazon oder den GBV (je nachdem ;)). Mal schnell mit einer anderen Suchmaschine suchen? Nun „wie“ dürfte nun klar sein, aber das einfach Konzept motiviert auch dazu mal öfter nicht auf Google zu ziehen, sondern einigen der Felder andere „Testobjekte“ zuzuweisen.

So ein langer Absatz ist beinah zuviel der Erklärung, da es wirklich sehr intuitiv ist. Der Charme dieser Lösung liegt für mich in diesem „Fluss der Aktionen“. Mittlerweile ertappe ich mich sogar dabei, dass ich an der erstbesten Stelle (irgendein Formular) meine Suchbegriffe eingebe und sie von dort ziehe – fauler Grobmotoriker :D.

Das soll es dann auch vorerst mal mit der Würdigung von Firefox-Erweiterungen gewesen sein – soviele „Information Retrieval“-Dinge bleiben aber auch nicht mehr über. Zu Usability gäbe es zwar noch ganz dringend Drag de Go (Links ziehen und damit neue Tabs – am besten im Hintergrund – öffnen. Tolle Sache um schnell x Suchmaschinenergebnisse zu öffnen) und Mouse Gestures (wir überfliegen die eben geöffneten Tabs und schließen sie mit „Rechts- und dann Linksklick“, oder gehen tiefer in der Seite und navigieren dann mit „Rechtsklick und Mausrad hoch“ schnell wieder zurück) zu empfehlen, aber für sowas gibt’s ja auch andere Blogs… 😉

Dez 162006
 

Es ist die Woche der Firefox-Erweiterungen in diesem Blog. Nachdem ich vor kurzem Gnosis entdeckt habe, gibt es noch zwei die in dem großen Bereich „Information Retrieval“ nicht ungenannt bleiben sollten. Web Search Pro nutze ich schon eine ganze Weile, das Dynamic Web Project hab ich hingegen erst vor ein paar Tagen entdeckt. In diesem Beitrag erstmal zu dem Dynamic Web Project. Zu Web Search Pro-Beitrag geht es hier.

Dynamic Web Project

(Bei addons.mozilla.org oder Projektseite des MIT Computer Science and Artificial Intelligence Laboratory)

Diese Erweiterung ist mir in ihrer Funktion bzw. Funktionsweise zunächst unklar gewesen, aber beide Quellen zusammen geben ein genauers Bild. Die Erweiterung zeigt in einer Sidebar verwandte Links zur aktuell im Browser bzw. Tab angezeigten Seite. In Prinzip funmktioniert es also ähnlich wie die Funktion „Ähnliche Seiten“ bei Google, allerdings mit dem Unterschied, dass das Ergebnis im Kontext der Seite selbst, nicht aber bei der Suche angezeigt wird. Der zweite Unterschied ist, dass (anonymisiert) registriert wird, welchen Links gefolgt wurde. Damit kann das Ergebnis stetig verbessert werden – etwas das sicher auch Google über die Links realisiert.

Wenn es also auch im Grunde nicht anderes macht als Google, so ist es doch interessant weil

  • Es ist nicht Google
  • Es funktioniert im Kontext der geöffneten Seite (bei Google müsste ich erst mit site:www.irgendwo.de die Seite suchen)
  • Es ist ein Studentenprojekt

Bei mozilla.org kommentiert ein MIT-Professor die Erweiterung:

I am a Prof. in MIT teaching computer networks. The Dynamic Web Sidebar is developed by a team of students in my class. It is an academic project with no commercial intents. The objective of the students is to use technology to improve user browsing experience. All data is anonymized and no user specific data is kept.

I have been using the Dynamic Web sidebar since November 17, 2006. Students in my research group and in my class are using it too. Also, the project got advertised in some of the MIT classes and a small but growing population is using it. I have a very positive experience with the Side-bar. A few times I was searching for material for the class I teach and the Sidebar proposed either complementary material or alternative URLs that I found useful.

Für verweisungsform.de gibt es derzeit folgende related Links:

Dynamic Web Project - FlickREs ist schon ganz spannend zu sehen, welche Seiten da auftauchen. In welcher Beziehung, abgesehen von Technorati, die Ergebnisse zur meiner Seite stehen, ist mir allerdings nicht klar. Andersrum habe ich aber eine Beziehung zu den Ergebnissen 1, 2, 5, 7 (na sowas?), 8 (9), d.h. würde ich diese Seiten nicht kenne, würde es mir immerhin Seiten anbieten, die thematisch meinen Interessen entsprechen – ist doch auch schon was.

Trotzdem bleibt die Frage, wie diese Beziehung in erster Linie ermittelt wird. Sind es jetzt Seiten, welche andere Leute (IP-Adressen, da es ja anonym ist) auch häufig ansteuern, wodurch sich eine erste Beziehung ergibt – sowas wie ein umgekehrter PageRank? Gefestigt wird diese Beziehung dann dadurch, dass von hier aus diesen Links gefolgt wird? Nun, mit Information wird man nicht erschlagen, aber das liegt wohl auch in der „Projektnatur“.

Letzlich kann man sagen, dass die Ergebnisse nicht unbedingt immer beeindrucken oder zumindest nicht klar sind, aber es liegt in der Natur der Sache (statistische Auswertung), dass erst die Masse es macht. Trotzdem macht es Spaß immer mal wieder in die Sidebar zu gucken. Wie so häufig bei solchen Dingen ist das spannende auch, zu sehen wie es sich entwickelt… 🙂

Dez 062006
 

Früh am Morgen kommt über den Newsfeed von mozilla.org doch ein Hinweis auf eine sehr interessante Erweiterung für Firefox rein. Ein Titel wie ClearForest Gnosis 0.8 for Firefox macht neugierig.

Unter obigem Link findet man folgende Beschreibung:

„With one click, Gnosis scans the text you’re reading and automatically identifies people, places, companies, organizations, products and more. Gnosis’s findings are presented to you in a sidebar […] We’ve implemented a small portion of our capabilities as a web service that Gnosis uses to extract information from unstructured text.“

Ich habe die Erweiterung jetzt nur kurz angetestet, aber der Ansatz die Kernbegriffe aus einem Text zu extrahieren und geordnet aufzulisten ist doch recht interessant. Ziemlich gut funktioniert das, soweit man das nach so kurzer Zeit sagen kann, für Countries, Cities, Companies, Organizations, Products und Persons. Das gilt für deutsche (wobei Heinz Herbertson hier gerne geadelt wird, wenn der Artikel von ihm ist) wie für englische Texte.

Da wo es interessant wird, nämlich bei den Industry Terms, da hier ganz wesentlich auf den Inhalt des Textes rückgeschlossen werden kann (könnte), kommen allerdings eher mittelprächtige Ergebnisse. Andererseits fehlen mir die ordentlichen englischsprachigen Texte (hab es nur mit einigen Artikeln vom Library Student Journal probiert) und das ganze ist auch nur ein allererster Eindruck.

Abgesehen von der Qualität, finde ich diese „on the fly“ Verarbeitung eines Dokumentes über einen Webdienst auf jeden Fall interessant und bemerkenswert.

Sep 152006
 

Infodata-eDepot – Quelle für Schriften aus der Informationswissenschaft. Beitrag gepostet von Searchfactory im Recherchen Blog am 14.09.2006, verfügbar unter: recherchenblog.ch/index.php/1270/

Ach ich liebe den Recherchenblog einfach. Das INFODATA-eDepot scheint, zumindest dem ersten groben Eindruck nach, eine wirklich interessante Quelle für „Volltexte elektronischer Dokumente auf dem Gebiet der Informationswissenschaft“ zu sein. Unbedingt erschlagen von der Menge wird man jetzt nicht, aber immerhin findet sich doch schon etwas von Professoren aus unserem Fachbereich dort.

Wer allerdings die geniale Idee hatte, die Seite nur für das Logo und das Impressum in ein Frameset zu packen (Seite evtl. mal was kleiner machen)…