Euroforum: Tag 2 – Verweisungsform.de

Aus dem “morgen mehr” sind nun beinah zwei Woche geworden. Trotzdem wollte ich auch noch mal die Eindrücke des zweiten Tages festhalten.

Den ersten Beitrag Es geht um mehr als Suche! von Dr. Stefan Wess (Geschäftsführer Empolis) fand ich eigentlich sehr interessant. Im Wesentlichen ging es über Stichworte wie “Ein Begriff – viele Bedeutungen… und viele Synonyme”, “Informationsflut” und Kosten von langwierigen Recherchen (durch Wissenschaftler) schließlich zur Begründung der Notwendigkeit eines semantischen Webs (und damit von Theseus). Nico Lumma, welcher an selbigem Tag einen Vortrag zu Blogs hielt, kommentiert diesen Beitrag von Dr. Wess in seinem Blog unter dem Titel Subventioniertes Leuchtturmprojekt mit 90% Eisberg eingehender. Selber hat mich der Beitrag in seinen Aspekten zu Synonymen, Ontologien und so weiter sehr an unser sehr schönes HAW-Seminar Wissensorganisation erinnert – vielleicht sollten wir mal Herrn Wess einladen. 🙂 Welch Zufall, dass die letzte Folie auch auf Vannevar Bushs Memex hinwies (“As we may think“), von dem wir dieses Semester auch hörten. Sehr schön, aus bibliothekarischer Sicht, fand ich auch das angeführte Zitat nach der Delphi Group: „Lack of organisation of information is in fact the number one problem in information management and retrieval“ und “Suche ist ein Ausdruck mangelnder Organisation” (wobei Suche in den Google-Farben geschrieben stand). Interessant auch die Begriffseinführung Informationslogistiker nach dem Prinzip “Die richtige Information, für die richtige Person, zur richtigen Zeit”.
Kein Wunder also, dass Herr Wess die Internetsuche als Schlüsseltechnologie bezeichnete, dabei aber die These aufstellte, dass gerade einmal 10% des Potentials genutzt (=Google), 90% also noch zu erschließen seien. Unter diesem Motto liefe im Grunde auch Theseus und die Abspaltung von Quaero leite sich davon ab, dass man mehr als “10% + 10%” wolle. Ehrlich gesagt bleibt mir der Ansatz von Theseus als semantische Suchmaschine aber schleierhaft, wenn in der anschließenden Fragerunde die Frage “Ist eine weltweite Ontologie überhaupt möglich?” geantwortet wird, dass dies bisher immer “in die Hose gegangen sei” und das eine Ontologie nur lokal und für spezielle Anwendungszwecke Sinn mache (interessantes Beispiel übrigens tatsächlich Otto.de, wenn man z.B. die natürlichsprachige Anforderung “Ich brauche eine blaue Hose für meine Tochter” in der Suchmaske eingibt).

Der folgende Vortrag Geht nicht, gibt’s nicht – Die lokale Suche wurde von Peter Neumann (Director Content & Portals, Allesklar.com AG) gehalten. Dabei ging es vor allem um die Erfahrungen mit meineStadt.de. Dabei wurden viele Nutzeraspekte aufgefächert – Geschlecht,Alter, Bildung etc. Quelle hierfür war vor allem die Studie Internet Facts 2006-II der AGOF-AG. Interessant ist doch, dass dort bei der Top 10 der generellen Produktinteressen, Bücher an erster Stelle liegen – würde man das erwarten? Weiterhin fand ich interessant, wie sich der Sucheinstieg der Nutzer aufschlüsselte. Dabei wurde die Ansicht der Branchen von Kiel als Beispiel herangezogen. Danach würden je 40% über die Suchmaske und über den Katalog einsteigen, die restlichen 20% über die alphabetische Branchen-Suche. Abgesehen davon, dass man das Ergebnis nicht ganz isoliert vom Nutzerspektrum der Seite betrachten solllte, finde ich es doch erstaunlich, dass der Katalog so hoch im Kurs steht (auch wenn es Sinn macht). Ansonsten ging es schließllich vor allem um kundenspezifische Angebote – und natürlich Werbung. Interessant war noch die Aussage, dass Qype als keine wirkliche Konkurrenz angesehen wird. Prinzipiell ist die Aussage, dass kein Mensch den Doktor um die Ecke eintragen würde (entgegen dem redaktionellen Angebot von meineStadt), jedoch einleuchtend. Erfolgsversprechender sei gegenüber dem rein user-generated-content eher die Ergänzungmöglichkeit durch den Nutzer.

Nach der Pause ging es mit dem Bereits erwähnten Vortrag von Nico Lumma Konversationen sind das Salz in der Suche weiter. Hier ging es um das bald startende Projekt blogmonitor.de, ein Tool zur Anaylse der deutschen Blogosphäre und Nachfolger von blogstats.de. Im Grunde ein Tool zur Trendanalyse, welche auch am ersten Tag schon Thema war, für Blogs. Amüsant fand ich in diesen Zusammenhang die Einführung des Begriffs Eitelkeitssuche, d.h. wenn ein Blogger seinen eigenen Blog analysiert. Ich denke für Blogleser ist es bereits schlüssig, dass eine Analyse der Blogossphere auch wirtschaftlich sehr interessant sein kann. Insofern waren auch die von Lumma gestellten Fragen “Wer bloggt” und “Wer liest Blogs?” interessant. Die erste Frage hatt, soweit ich das sehen konnte von meinem Platz, nur sehr wenige Meldungen (und bei denen bin ich nicht in die Nähe des Namensschildchens gekommen). Die zweite Frage hatte bei “monatlich” noch einigermassen viele Meldungen, aber bei wöchentlich und täglich waren es vielleicht noch eine Hand voll…

Der folgende Vortrag Search Engine Marketing – Was geht, was lohnt? von Prof. Hendrik Speck war sehr interessant, aber mit fast 90 Folien, sehr vielen Quellenangaben und sehr vielen Erläuterungen auch extrem umfangreich. Sehr knapp zusammengefasst ging es um zum einen um den weltweiten Wandel in der Mediennutzung, natürlich mit Schwerpunkt auf der Internetnutzung. Zum anderen wurden daraufhin die große Lücke bei den Werbeinvestitionen im Internet gegenüber den Investitionen in den klassischen Medien dargestellt. Im Folgenden ging es entsprechend um (Google-) Adwords und Marktdruchdringung der Suchmaschinen über die Jahre, mit dem “überraschenden” Zuwachs bei Google…
Ganz interessant war auch die graphische Gegeüberstellung der Anzahl durchschnittlich verwendeter Suchworte mit Zahlen von 2003 (OneStat) gegenüber Zahlen von 2007 (RankStat). Balkendiagramme zeigen dann doch sehr deutlich, dass es eine starke Tendenz zu mehr Suchworten gibt, wobei die Mehrzahl der Nutzer im Schnitt zwei Suchbegriffe verwendet. Die danach aufgeführte Liste der meistgesuchten Begriffe (welche dies sind erahnt man ja), läßt dann aber vermuten, dass die häufigste Kombination “+free +sex” sein müsse. Ebenfalls nicht so überraschend neu (dafür aber sehr detailreich dargestellt), dass Nutzer selten über die ersten ein bis zwei Seiten der angezeigten Suchergebnisse hinausgehen. Hier wurde besonders häufig auf die Quelle iProspect verwiesen.
Im weiteren ging es dann um die Bewertung des Marktwertes von Web 2.0-Seiten, sowie den entsprechenden Bewertungskritierien. Die Folie Brief history of decline stellte dann gravierende Markteinbrüche der Geschichte, vom Wallstreet-Crash 1929, über die geplatzte Dot-Com-Blase im Jahr 2000 hin zum Jahr 2007 mit dem Punkt “Web 2.0 Bubble evaporates”, dar.
Persönlich hat mich der Vortrag sehr mit seinenganzen Zahlen erschlagen…

Nach dem Mittagessen wurde es dann bereits ziemlich leer im Raum – anscheinend rief das Wochenende. Dabei war der folgende Beitrag Deep Web – Suchen wir was man finden könnte? von Dr. Lewandowski ebenfalls sehr interessant, aber vielleicht tatsächlich nicht so sehr aus einer Marketingperspektive. Die Folien zu dem Vortrag kann man übrigens unter www.durchdenken.de/lewandowski abrufen (Direktlink PDF). Zum einen ging es um die Defintion des Deep Webs, vereinfacht dargestellt also der Teil des Webs, welcher nicht von Suchmaschinen erschlossen wird (werden kann), und zum anderen um die geschätzte Größe. Die Herleitung der Größe wurde recht feinstufig unternommen. Interessant ist dabei, dass nach Schätzungen von Lewandoski und Mayr die Größe bei weniger als 100 Milliarden Dokumenten liegt, wobei diese Ergebnisse auf einer kritischen Auseinandersetzung insbesondere mit den Ergebnissen von Bergmann (500 Milliarden Dokumente) gründen.
Die Größendimensionen sind zwar spannend, noch spannender ist jedoch die Frage: Wie kommt man daran? Ein Teil des Problems sind natürlich die Formate, d.h. Bilder, Video, Audio, Flash oder auch gepackte Dateien. PDFs, sofern sie als Volltext vorliegen (also keine “Bild”-PDFs sind), werden ja mittlerweile von den meisten Suchmaschinen indexiert. Für Bilder zeichnen sich langsam auch Lösungen ab (der Name der Gesichtserkennungssuchmschine fällt mir gerade jedoch nicht ein), die über die Bereitstellung von Metadaten hinausgehen. Bei Audio- und Video nehme ich an, dass noch ein ganzes Weilchen auf die Inhalte über den “umgebenden” Content zurückgeschlossen werden muss, allerdings glaube ich auch nicht, dass hier die wichtigsten zu erschließenden Quellen liegen. Die größten “Schätze” liegen sicher gut verborgen in Datenbanken. Der Vorteil von Datenbanken, ihre Strukturiertheit und die feldspezfische Suche (u.a.), ist bei einem Volltextindex, wie in Suchmaschinen erstellen, ihr Nachteil.
Ein Vorschlag zur Lösung dieses Problemes ist, dass zweigleisig gefahren wird, d.h. das die Datenbankinhalte noch einmal flach abgebildet werden – z.B. als HTML-Seiten. Als Beispiel für eine solche Lösung wird auf den Folien imdb.com genannt. Betrachtet man eBay oder Amazon, dann stecken dort wohl ähnliche Ansätze dahinter.
Mir kam dabei gleich der Gedanke, dass selbst wenn Nutzer eine Suchmaske für alles wünschen, dass solche indexierbaren flachen Hierarchien aber zugleich Recall und Precision stark negativ beeinflussen könnten. Immer häufiger fällt mir doch auf, dass ich ein Problem habe, recherchiere, aber die ersten Ergebnisse immer Amazon, eBay, idealo oder auch Foren sind, welche bei inhatlichen Fragen selten weiterbringen (was dazu führt, dass ich dann mit mäßigem Erfolg versuche diese über “-amazon -eBay …” auszuschliessen). Das hat mich dann auch veranlasst bei Exalead den Vorschlag (Möglichkeite hier: Englisch, Deutsch) zu machen, dass Refines der Suche auch nach “Quellart” oder Ausrichtung (Kommerziell, Foren, Mailinglisten etc.) möglich sein sollten. Das erfordert (dummer Weise) natürlich wieder einen hohen intellektuellen Aufwand bei der Definition solcher Cluster, es sei denn man überläßt es dem Nutzer selber seine permanenten Exclude-Filter zu definieren. Da mach ich mir vielleicht lieber an anderer Stelle Gedanken drüber – sprengt hier wirklich den Rahmen.
Es gibt aber natürlich auch interessantere Quellen, welches ähnliches bereits machen. E-Lis z.B. ist im Wesentlichen ja ebenfalls flach organisiert. Die Lösung zur Erschließung des Deep Web scheint derzeit also am häufigsten eingesetzt zu werden, soweit dies vom Anbieter überhaupt gewünscht ist – was ja noch eine ganz andere Frage ist.
Die zweite Möglichkeit ist die spezieller Suchmaschinen, d.h. in der Regel Metasuchmaschinen für eine begrenzte Zahl an (fachverwandten) Datenbanken, die gegenüber Suchmaschinen zwar erweiterte Suchmöglichkeiten bieten, jedoch natürlich nicht das Potential der einzelnen Quellen ausnutzen. Im Grunde machen ViFas ja nichts anderes. Für die als Beispiel genannte Deep-Web-Suchmaschiene Turbo10 (“Search 804 Deep Net Engines”) bin ich aber irgendwie zu blöd – weder im IE noch im FF erhalte ich hier Ergebnisse (außer JavaScript-Fehler). Interessante Angebote sich eigene Suchmaschinensets zusammenzustellen gibt es aber ja auch sonst. Hier hat der Blog AgoraWissen übrigen häufig sehr interessante Beiträge – z.B. der Beitrag zu Trovando.
Die dritte Möglichkeit die Lewandowski nennt, ist dass reguläre Suchmaschinen Links (Shortcuts) zu spezielleren Suchmaschinen oberhalb der eigentlichen Ergebnisse liefern. Dies wird bereits auch bei den meisten Suchmaschinen in der ein oder anderen Form umgesetzt, so erhält man bei Lycos z.B. gleich eine Grafik zum aktuellen Aktienkurs, wenn man einen Unternehmsnamen sucht. Was (wer) dann angezeigt wird ist allerdings eine andere Frage.
Insgesamt wird das Deep Web und Lösungen zu seiner (sinnvollen) Erschließung aber auch weiterhin ein spannendes Feld bleiben. Vielleicht kann man ja irgendwan bei Google&Co auch “bibliothek hamburg orwell” eingeben und kriegt ein “passendes” Ergebniss? 🙂

Der letzte Beitrag der Konferenz war Rechtliche Haftungsfragen für Internet-Anbieter (Dr. Arnd Haller, Leiter Recht, Google Germany). Der Vortrag war sehr interessant und wurde anschaulich, angereichert mit vielen Beispielen, gehalten. Ich spar es mir aber an dieser Stelle auf die ganze gesetzlichen Haftungsregelungen für Internetanbieter einzugehen. Das Heise-Urteil ist ohnehin wahrscheinlich den meisten bekannt und das neue Telemediengesetzt (TMG) geistert derzeit auch durch die Kritiken sämtlicher Zeitungen und Zeitschriften (oder der Blogosphere).
Interessant war natürlich auch die Frage des zweiten Vortragsteils: Ist das deutsche Urheberrecht „Web 2.0–tauglich“? Hier wurden aber vor allem weitere Fragen gestellt, denn Antworten gegeben (“Urheberrecht als Hindernis für die weitere Entwicklung des Web 2.0?; “Ausweichstrategien für Host- und Content-Provider ins Ausland realistisch – User generated content nur noch außerhalb des deutschen Rechtsraums?”). Natürlich durfte hier auch nicht der Hinweis auf die Fair-Use-Klausel des amerikanischen Urheberrechts fehlen.
Der dritte Teil Ausblick: Was gibt´s Neues in 2007? war zugleich quasi das Fazit, nämlich dass man erst mal abwarten müsse, was sich 2007 im Bereich des Urheberrechtsgesetzes, der zu erwartenden Revision des TMG und bei relevanten Entscheidugen des BGH ergibt. Da kann man, als auf einmal beinah jounalistisch tätiger Blogger, ja nur gespannt sein (hey, solange ich keinen Lektor beschäftige, sollte die Bewertung über die Zahl der Zeichensetzungsfehler passieren! :D).

Nun, als Fazit dieser Konferenz komme ich zu dem Schluss, dass die Konferenz spannende Themen und Personen aufbot, dabei aber Fragen des Marketings sehr beherrschend waren. Begriffe wie Recherche- oder Informationskompetenz, Recall und Precision oder auch Nutzergruppen waren dabei eher implizit ein Thema, obwohl sich die Macht der Suchmaschinen auf lange Sicht wohl über ihre Qualität definieren wird – hoffentlich auch ihrer Transparenz. Nicht ganz unwesentlicher Aspekt der (einer derartigen) Konferenz ist sicher aber auch das Knüpfen von Kontakten (“Pflegen und erweitern Sie Ihr Netzwerk”) – Exzellenz wird auch von den Teilnehmern erwartet, wenn man die Frage der Dame neben mir zu Beginn der Konferenz betrachtet: “HAW – sind sie Suchmaschinenexperte?” 😀
Alles in allem waren mir neue Ideen und Konzepte wie die Trendanalyse, “Long Tail” und “Vertical Search” doch sehr spannend und letztlich kann es ja nur das eigene Blickfeld erweitern. Es weckt eine ganz andere Aufmerksamkeitsspanne, wenn man z.B. letzte Woche zweimal den Begriff Long Tail bei netbib findet oder der Rechercheblog ausführlich über ZoomInfo (ZoomInfo: Recherche von Unternehmen und Mitarbeitern) berichtet. Denk ich an die Diskussion der Verlagsvertreter, dann trifft auch das Thema Magazine Publishing in a Web 2.0 World (Folien eines Vortrags, übrigens Titel der Folie 15: “Web 2.0 Priciples: The Power of the Tail”) bei David Rothman voll ins Schwarze – im Grunde wird hier die halbe Konferenz zusammengefasst, allerdings ohne von Kannibalisierung zu sprechen.
Alles in allem also eine gute Erfahrung – auch wenn diese mir zukünftig immer noch mit 1800 EUR zu teuer wäre. Umso mehr Dank an Herrn Lewandoski!

2 Antworten zu “Euroforum: Tag 2”

davidrothman.net – How popular is davidrothman.net? (://URLFAN) sagt:

21. Mai 2007 um 02:19 Uhr

[…] wikis lots more medical wikis medical wikis contains comments on wikisurgery specifcall…[more] euroforum tag 2Source:blog.verweisungsform.de Mar 07, 2007 11:40 p.m.Analysisaus dem morgen mehr sind nun […]
netbib weblog » Blog Archive » Euroforum-Kongress: Die Macht der Suchmaschinen, Tag 2 sagt:

12. März 2007 um 10:36 Uhr

[…] berichtet auf Verweisungsform sehr ausf