Sie sind nicht angemeldet.

Lieber Besucher, herzlich willkommen bei: DereGlobus-Forum. Falls dies Ihr erster Besuch auf dieser Seite ist, lesen Sie sich bitte die Hilfe durch. Dort wird Ihnen die Bedienung dieser Seite näher erläutert. Darüber hinaus sollten Sie sich registrieren, um alle Funktionen dieser Seite nutzen zu können. Benutzen Sie das Registrierungsformular, um sich zu registrieren oder informieren Sie sich ausführlich über den Registrierungsvorgang. Falls Sie sich bereits zu einem früheren Zeitpunkt registriert haben, können Sie sich hier anmelden.

phelix

Schüler

  • »phelix« ist der Autor dieses Themas

Beiträge: 77

Registrierungsdatum: 23. Oktober 2008

MI bis: bitte auswählen

  • Nachricht senden

1

Freitag, 13. Februar 2009, 14:27

Wiki Exzerpt

Wir sollten die Gestaltung der Zielbeschreibungen verändern! Wer will lese sich die entsprechenden Php-Dateien durch

morgen gibt es konkreteres!

Folgendes schrieb Thamor dazu:

Zitat von »"Thamor"«

So sieht der HTML-Code von Perainefurten (und hoffentlich auch aller anderen Städte aus. Wenn nicht, wird das von uns angeglichen!):

Quellcode

1
2
3
4
5
6
7
8
9
10
11
12
13
<a name="Kurzbeschreibung"></a><h2><span class="editsection">[<a href="/index.php?title=Perainefurten&amp;action=edit&amp;section=1" title="Abschnitt bearbeiten: Kurzbeschreibung">Bearbeiten</a>]</span> <span class="mw-headline">Kurzbeschreibung</span></h2>
<p><br clear="all" /></p>

<table ...>
...
</table>

<p>
Perainefurten war langezeit ein Dorf ...
</p>

<a name="Publikationen">
...


Dein Excerptbefehl müsste also heißen:
  1. Kopiere Text von Marker <a name="Kurzbeschreibung"> bis zum nächsten <a name="
  2. Ersetzte den Text zwischen dem Marker <a name="Kurzbeschreibung"> und </table> durch ein Leerzeichen (oder sonstwas)
  3. Ersetzte <a name=" durch ein Leerzeichen (oder sonstwas)


Wenn du das kannst, haben wir es geschafft! :D Man könnte auch noch sinnvollere Ersetzungen durchführen, indem man bei 2. und 3. nicht durch Leerzeichen sondern durch eigenen HTML-Code ersetzt, der entsprechend der HTML-Maske ein schönes Beschreibungsfenster mit Wiki-Referenz gibt. (und das mit dem Bild könnte dann auch klappen)

Es haben sich bereits 7 Gäste bedankt.

Thamor

Administrator

Beiträge: 11 619

Registrierungsdatum: 12. September 2008

MI bis: Gegenwart

  • Nachricht senden

2

Freitag, 10. Dezember 2010, 00:56

Re: Wiki Exzerpt

Ich habs! HEUREKA! :D :D :D

In Kürze mehr!

EDIT: Link: http://spreadsheets0.google.com/a/deregl…Ipw&hl=de#gid=1

Es haben sich bereits 8 Gäste bedankt.

Thamor

Administrator

Beiträge: 11 619

Registrierungsdatum: 12. September 2008

MI bis: Gegenwart

  • Nachricht senden

3

Freitag, 10. Dezember 2010, 01:23

Re: Wiki Exzerpt

Mir ist es soeben gelungen, ein Wikiexzerpt - d.h. ein automatisches Auslesen der Kurzbeschreibungstexte aus dem Wiki - zu basteln. Die (oben verlinkte) Testtabelle in Google Spreadsheets liest nun ca. jede Stunde die Kurzbeschreibung des eingegebenen Artikels aus dem Wiki aus! :D

Das ganze beruht auf den Formeln die Cattivo für die KML-Abfrage erstellt hat. Nachdem ich die verinnerlicht hatte, konnte ich sie leicht abändern und statt auf das Auslesen von KML-Code eben auf den HTML-Code vom Wiki umändern. Die Grundlage um den HTML-Code des Wikis in die Tabelle zu bekommen ist übrigens die ImportData-Funktion.

Getestet hab ich das ganze an Städteartikeln. Es ist noch ziemlich mit heißer Nadel gestrickt, so muss z.B. ein Kasten vorhanden sein und die Kurzbeschreibung muss eine gewisse Länge haben. Das sind aber alles nur kleine Problemchen, die mit entsprechender Zeit (gilt für mich^^) oder Know How (Hallo Cattivo^^) beseitigt werden können, da bin ich zuversichtlich. :)

Ihr könnt das alles mal testen, indem ihr einfach eine Stadtnamen ins gelbe Feld der Tabelle eingebt. Sofort müsste die entsprechende Kurzbeschreibung (übrigens mit vollständigen Wiki-Links, das war die leichteste Übung^^) darunter erscheinen. Das ganze ist frühe Alpha-Phase, also nicht wundern, wenn nicht jeder Artikel funktioniert!

Eine Zukunftsvision: Damit dürfte es möglich sein, im Wiki-Artikel Koordinaten zu hinterlegen (wie wir es beim DereGlobus-Link ja schon machen) welche dann auch ausgelesen werden und so automatisch eine Ortsmarke des Artikels in DereGlobus generiert wird! :mrgreen:

BTW, hab ich schon erwähnt, dass ich die nötige Stunde nicht abgewartet habe, bevor ich das geschrieben habe...? Ja, ich bin gespannt auf morgen, ob mein TEST-Artikel tatsächlich mit dem Wort TEST statt Perainefurten in der Tabelle aufgetaucht ist.

Gute Nacht.

EDIT: Juchuuuuuu, es klappt tatsächlich! :mrgreen: :mrgreen: :mrgreen:

Es haben sich bereits 7 Gäste bedankt.

Cattivo

Profi

Beiträge: 1 088

Registrierungsdatum: 21. Oktober 2008

  • Nachricht senden

4

Freitag, 10. Dezember 2010, 10:06

Re: Wiki Exzerpt

Zitat von »"Thamor"«

Ich habs! HEUREKA! :D :D :D

In Kürze mehr!

EDIT: Link: http://spreadsheets0.google.com/a/deregl…Ipw&hl=de#gid=1


[...] hat nicht die erforderlichen Rechte für den Zugriff auf diese Tabelle. :roll:

Es haben sich bereits 8 Gäste bedankt.

Cattivo

Profi

Beiträge: 1 088

Registrierungsdatum: 21. Oktober 2008

  • Nachricht senden

5

Freitag, 10. Dezember 2010, 10:08

Re: Wiki Exzerpt

Zitat

Die Grundlage um den HTML-Code des Wikis in die Tabelle zu bekommen ist übrigens die ImportData-Funktion.


Mit der Funktion kann man Daten aus Dritt-Quellen importieren? Cool!

Es haben sich bereits 7 Gäste bedankt.

miro

Meister

Beiträge: 2 391

Registrierungsdatum: 4. Mai 2009

MI bis: Gegenwart

  • Nachricht senden

6

Freitag, 10. Dezember 2010, 10:32

Re: Wiki Exzerpt

Das wäre ja super! Ein kleiner Schritt für den Code, ein großer für DereGlobus!

Falls das Auslesen mit Rechnerarbeit oder Beeinträchtigungen verbunden ist (bei der Datenmenge), kann man das ja einmal täglich morgens um 3 durchführen lassen.

Es haben sich bereits 7 Gäste bedankt.

Thamor

Administrator

Beiträge: 11 619

Registrierungsdatum: 12. September 2008

MI bis: Gegenwart

  • Nachricht senden

7

Freitag, 10. Dezember 2010, 10:58

Re: Wiki Exzerpt

So ich hab das "UI" etwas überarbeitet. ;)

Im ersten Tabellenblatt "Ausgabe" befindet sich jetzt das Feld für den Artikelnamen aus dem Wiki (gelbes Feld) und direkt die Ausgabe im grünen Feld darunter. Dieses Tabellenblatt ist jetzt alle, die das hier lesen und somit über den Link verfügen frei zugänglich und editierbar! Ich würde mich sehr über Tester freuen, die ihre Ergebnisse hier schildern:

:arrow: Jetzt Wiki-Exzerpt testen!

Das zweite Tabellenblatt "Exzerpt", wo die Technik abläuft, ist für alle mit einem dereglobus.org Account freigeschaltet, sowie für Phelix und nun auch Cattivos Privatadresse (du kannst dich aber auch mit cattivo (at) dereglobus.org anmelden).

Zitat

Falls das Auslesen mit Rechnerarbeit oder Beeinträchtigungen verbunden ist (bei der Datenmenge), kann man das ja einmal täglich morgens um 3 durchführen lassen.
Bei der ImportData-Funktion liest Google die Webseiten wohl ca. einmal stündlich aus und cached den Inhalt auf Google-Servern. Da Google sowieso mit seinen Crawlern ständig das Netz ausliest, dürfte das also keinen großen Mehraufwand bedeuten, denke ich. Standarmäßig kann man bei ImportData keinen Zeitraum einstellen, es gibt aber anscheinend einen (etwas komplizierten) Workarround von einem Googler.

Es haben sich bereits 7 Gäste bedankt.

Wulf

Meister

Beiträge: 1 934

Registrierungsdatum: 26. Januar 2009

MI bis: Gegenwart

  • Nachricht senden

8

Freitag, 10. Dezember 2010, 11:11

Re: Wiki Exzerpt

Klingt nach einer super Sachen!

Es haben sich bereits 4 Gäste bedankt.

Thamor

Administrator

Beiträge: 11 619

Registrierungsdatum: 12. September 2008

MI bis: Gegenwart

  • Nachricht senden

9

Freitag, 10. Dezember 2010, 11:42

Re: Wiki Exzerpt

Ich habe mal einen Artikel zu diesem Projekt im Wiki erstellt: DereGlobus-Projekt/Exzerpt-Test

Nachdem ich mir den Quellcode eines typischen Wiki-Artikels nochmal angeschaut habe, denke ich, dass ich ein besseres Keyword zum auslesen der Kurzbeschreibung gefunden habe. Man könnte einfach "alles zwischen erster und zweiter Überschrift" auslesen. Da Überschriften im HTML-Code folgendermaßen formatiert sind:

Quellcode

1
<h2><span class="editsection">[<a href="/index.php?title=DereGlobus-Projekt/Exzerpt-Test&amp;action=edit&amp;section=1" title="Abschnitt bearbeiten: Kurzbeschreibung">Bearbeiten</a>]</span> <span class="mw-headline" id="Kurzbeschreibung">Kurzbeschreibung</span></h2>

könnte man also als Keywords z.B. editsection, Abschnitt bearbeiten oder mw-headline.
EDIT: Ich hab im Tabellenblatt "Exzerpt-Neu" mal damit angefangen das umzusetzen - diesmal auch übersichtlicher. ;)

Es haben sich bereits 4 Gäste bedankt.

miro

Meister

Beiträge: 2 391

Registrierungsdatum: 4. Mai 2009

MI bis: Gegenwart

  • Nachricht senden

10

Freitag, 10. Dezember 2010, 11:48

Re: Wiki Exzerpt

Schau dir mal Stadt an. Bekannte Städte gilt nicht als Überschrift, denke ich. Der Begriff ist durch ein Semikolon enstanden und nicht durch die üblichen == für Überschriften verschiedener Wertigkeit. Ich kann dir aber grade nicht sagen, für welche Fälle das gilt, die für uns wichtig sind.

Kann man die auch einbinden oder müssten sämtlich ; in Überschriften umgewandelt werden?

Es haben sich bereits 4 Gäste bedankt.

StipenTreublatt

Fortgeschrittener

Beiträge: 449

Registrierungsdatum: 24. Oktober 2008

  • Nachricht senden

11

Freitag, 10. Dezember 2010, 11:58

Re: Wiki Exzerpt

Jede Stunde ist viel zu oft. Wenn ihr das bei ca. 300 - 1000 Artikeln (oder wie viele Ortschaften gibt es?) macht, bekommt der Server jede Stunde sehr lange Response-Zeiten, weil das dann alles von google in Anspruch genommen wird (der Server ist eh schon sehr langsam im Ausliefern der Wiki-Seiten, wie ihr vielleicht gemerkt habt). Einmal am Tag, bevorzugt nachts um 3 sollte da das Maximum sein.

edit: Habe direkt geantwortet, nachdem ich den ersten Beitrag gelesen habe. Das ist sicherlich die Frage - benutzt google da nur den sowieso schon angelegten Cache der Webseite, oder greift google da zusätzlich auf den Server zu? Falls letzteres - siehe oben. Ich darf jetzt schon manchmal, wenn ich ca. 10 Tabs gleichzeitig öffne, eine gefühlte Minute auf die Seiten warten.

Es haben sich bereits 4 Gäste bedankt.

miro

Meister

Beiträge: 2 391

Registrierungsdatum: 4. Mai 2009

MI bis: Gegenwart

  • Nachricht senden

12

Freitag, 10. Dezember 2010, 12:04

Re: Wiki Exzerpt

Sind ja nicht nur Städte, auf die das Tool angewendet werden soll. Das soll ja sämtliche Landschaftsmerkmale einbeziehen, also Flüsse, Straßen, Berge, Baronien, neuerdings Kulturen usw. Das werden also wohl eher mehrere Tausend Anfragen.

Es haben sich bereits 4 Gäste bedankt.

Thamor

Administrator

Beiträge: 11 619

Registrierungsdatum: 12. September 2008

MI bis: Gegenwart

  • Nachricht senden

13

Freitag, 10. Dezember 2010, 12:05

Re: Wiki Exzerpt

Nein, die ; Überschriften sind kein Problem, da sie im Code durch <dl> zu erkennen sind, und ebenfalls herausgefiltert werden. Das trifft ja auch bei vielen Städten zu ("Bekannte Tempel", etc.) und beherrscht das Exzerpt schon. :)

Das Stadt derzeit noch nicht funktioniert, liegt daran, dass es keinen Kasten hat. Das werde ich mit dem Exzerpt-Neu aber (nach dem Essen) beheben. Dann ist das Exzerpt universell auf jeden Wiki-Artikel anwendbar und extrahiert den ersten Abschnitt. :D

EDIT: Antwort auf deinen Post Stipen, dann später.

Es haben sich bereits 4 Gäste bedankt.

StipenTreublatt

Fortgeschrittener

Beiträge: 449

Registrierungsdatum: 24. Oktober 2008

  • Nachricht senden

14

Freitag, 10. Dezember 2010, 12:08

Re: Wiki Exzerpt

Habe mich mal ein wenig im Inet umgesehen. Sieht so aus als ob google definitiv nicht jede Stunde crawlt. Wäre ja auch ein Wahnsinns-Traffic den die damit veranstalten würden.

Es haben sich bereits 4 Gäste bedankt.

Orci

Anfänger

Beiträge: 9

Registrierungsdatum: 9. November 2010

  • Nachricht senden

15

Freitag, 10. Dezember 2010, 12:29

Re: Wiki Exzerpt

Warum nutzt ihr nicht die MediaWiki api zum auslesen?
<a class="postlink" href="http://www.mediawiki.org/wiki/API">http://www.mediawiki.org/wiki/API</a>

Also zum Beispiel für Perainefurten
<a class="postlink" href="http://www.wiki-aventurica.de/api.php?action=parse&prop=displaytitle|text&page=Perainefurten&format=xml">http://www.wiki-aventurica.de/api.php?a ... format=xml</a>

Damit spart man sich Parse-Arbeit um den ganzen Kram zu entfernen und dem WA-Server die Arbeit das alles hinzuzfügen.

Es haben sich bereits 5 Gäste bedankt.

Thamor

Administrator

Beiträge: 11 619

Registrierungsdatum: 12. September 2008

MI bis: Gegenwart

  • Nachricht senden

16

Freitag, 10. Dezember 2010, 12:55

Re: Wiki Exzerpt

Zitat von »"Stipen"«

Jede Stunde ist viel zu oft. Wenn ihr das bei ca. 300 - 1000 Artikeln (oder wie viele Ortschaften gibt es?) macht, bekommt der Server jede Stunde sehr lange Response-Zeiten, weil das dann alles von google in Anspruch genommen wird
Ja, das mag durchaus sein, und das wenigste was ich möchte ist, dass das Wiki (noch) langsamer wird. :?
Es könnte aber auch sein, das Google nur das Änderungsdatum ausliest (oder sowas, falls das irgendwo einzusehen ist...) und nur bei Änderungen den ganzen Code ausliest. Da ich mich hier nicht auskenne, müsste man das vielleicht mal testen.

Zitat von »"Orci"«

Warum nutzt ihr nicht die MediaWiki api zum auslesen?
<a class="postlink" href="http://www.mediawiki.org/wiki/API">http://www.mediawiki.org/wiki/API</a>

Also zum Beispiel für Perainefurten
<a class="postlink" href="http://www.wiki-aventurica.de/api.php?action=parse&prop=displaytitle|text&page=Perainefurten&format=xml">http://www.wiki-aventurica.de/api.php?a ... format=xml</a>

Damit spart man sich Parse-Arbeit um den ganzen Kram zu entfernen und dem WA-Server die Arbeit das alles hinzuzfügen.
Klasse, das klingt genial! :D

Kann man damit vielleicht direkt nur die Kurzbeschreibung, bzw. den ersten abschnitt eines Artiekels aussprucken?
Hast du vielleicht auch einen Link, der diese keywords "parse&prop=displaytitle|text&page" genauer erklärt, irgendwie finde ich die nicht, bzw. weiß nicht wo ich da suchen soll. Danke! :)

Es haben sich bereits 4 Gäste bedankt.

Orci

Anfänger

Beiträge: 9

Registrierungsdatum: 9. November 2010

  • Nachricht senden

17

Freitag, 10. Dezember 2010, 12:58

Re: Wiki Exzerpt

<a class="postlink" href="http://www.wiki-aventurica.de/api.php">http://www.wiki-aventurica.de/api.php</a>

Die api dokumentiert sich selber ;) Leider etwas unübersichtlich, aber vielleicht findest du was passendes.

Es haben sich bereits 4 Gäste bedankt.

Orci

Anfänger

Beiträge: 9

Registrierungsdatum: 9. November 2010

  • Nachricht senden

18

Freitag, 10. Dezember 2010, 13:17

Re: Wiki Exzerpt

Die Funktion um gezielt SubSections zu extrahieren kommt wohl erst mit MW 1.17, im trunk ist sie schon vorhanden, aber noch nicht in den veröffentlichten Versionen.

Es haben sich bereits 4 Gäste bedankt.

Thamor

Administrator

Beiträge: 11 619

Registrierungsdatum: 12. September 2008

MI bis: Gegenwart

  • Nachricht senden

19

Freitag, 10. Dezember 2010, 13:39

Re: Wiki Exzerpt

Schade, das wäre echt praktisch! :)
Aber auch so ist es schon super: Die XML-Seite die du angegeben hast, ist nur 28 KB groß, der HTML-Code der entsprechenden Seite 212 KB! Dadurch sparen wir also schonmal fast 90% des Datenvolumens!

Zitat

Damit spart man [...] dem WA-Server die Arbeit das alles hinzuzfügen.
Wie genau meinst du diesen Satz? Wo spart der WA-Server dadurch arbeit, und was alles wo hinzufügen? :)

Danke für den Link zur Doku!

Es haben sich bereits 4 Gäste bedankt.

Orci

Anfänger

Beiträge: 9

Registrierungsdatum: 9. November 2010

  • Nachricht senden

20

Freitag, 10. Dezember 2010, 13:43

Re: Wiki Exzerpt

Naja, alles was sich sonst noch auf der Seite befinden würde, also Menüs, javascripte, css-styles, etc. muss vom Server dann nicht aus der DB gelesen, geparst und in das Dokument eingefügt werden.

Es haben sich bereits 4 Gäste bedankt.