Algorithmische Identifizierung geplünderter archäologischer Stätten aus dem Weltraum

Algorithmische Identifizierung geplünderter archäologischer Stätten aus dem Weltraum

  • 1 Department of Psychological and Brain Sciences, Dartmouth College, Hanover, NH, USA
  • 2 Institut für Anthropologie, University of Alabama at Birmingham, Birmingham, AL, USA

Als Reaktion auf die weit verbreitete Plünderung archäologischer Stätten haben Archäologen Satellitenbilder verwendet, um die Untersuchung der Plünderung betroffener archäologischer Stätten zu ermöglichen. Solche Analysen erfordern oft eine zeitaufwändige direkte menschliche Interpretation von Bildern, mit der Möglichkeit von durch den Menschen verursachten Fehlern. Wir stellen einen neuartigen automatisierten Bildverarbeitungsmechanismus vor, der auf die Analyse von sehr hochauflösenden panchromatischen Satellitenbildern angewendet wird, und demonstrieren seine Fähigkeit, Schäden an archäologischen Stätten mit hoher Genauigkeit und niedrigen falsch-positiven Raten im Vergleich zu Standard-Bildklassifizierungsmethoden zu identifizieren. Dies hat ein großes Potenzial für groß angelegte Anwendungen, bei denen landesweite Satellitendatensätze stapelweise verarbeitet werden können, um Plünderungs-Hotspots zu finden. Für viele archäologische Stätten im Nahen Osten und anderswo läuft die Zeit ab,

Einführung

Jüngste Schätzungen zeigen, dass Plünderungen an archäologischen Stätten ein weltweites Problem sind (Proulx, 2013): 98 % von 2.358 befragten Feldarchäologen berichteten von Plünderungen an oder in der Nähe ihrer Forschungsstätten. Jüngste und anhaltende Konflikte in Ägypten (Ikram, 2013; Ikram und Hanna, 2013) sowie in Syrien und im Irak (Pringle, 2014; Gill, 2016) schaffen Möglichkeiten für organisierte Plünderungen mit Gewinnzweck. Während die genauen Zahlen und Mengen eingehender erforscht werden müssen (Chulov, 2014; Felch, 2014), ist klar, dass durch Plünderungen und Kriegsschäden weitreichende Schäden an antiken Stätten und Denkmälern auftreten. Als Reaktion darauf werden solche Plünderungen und Schäden manuell mit weltraumgestütztem Radar (Tapete et al., 2016), wiederholten Besuchen von kommerziellen Bildgebungssatelliten (Parcak, 2007, 2009; Hritz, 2008; Stone, 2008; AAAS, 2014; Casana und Panahipour, 2014; Newson und Young, 2015) oder aus kostenlosen öffentlichen Quellen wie Google Earth (Thomas et al., 2008; Contreras und Brodie, 2013). Eine manuelle Analyse kann jedoch teuer, zeitintensiv, schwer zu replizieren und lückenhaft sein. Außerdem können Quelldaten Hunderte von Megapixeln enthalten. Beispielsweise verwendete eine neue Plünderungskartierungsstudie alle öffentlich verfügbaren Satellitenbilder von Ägypten, um Plünderungen von 2002 bis 2013 über 1.200 „Sitescapes“ (wobei jede Site-Landschaft ein bis Hunderte von Sites enthält) zu kartieren (Parcak et al., 2016). Es dauerte 6 Monate der manuellen Bewertung, um über 200.000 einzelne Plünderungsgruben mit Tausenden von zusätzlichen Polygonen um interessante Orte oder Merkmale zu zeichnen. Selbst bei hochauflösenden Daten mit einer Auflösung von lt;1 m/Pixel ist Fachwissen erforderlich, um zwischen Plünderungsgruben und modernen Löchern oder Ausgrabungseinheiten zu unterscheiden.

Wie andere in der illegalen Bauüberwachung (Hofmann, 2001; Hofmann et al., 2008; Ioannidis et al., 2009) haben wir die illegale Plünderungsgrubenerkennung als Änderungserkennungsaufgabe betrachtet, wobei das Ziel darin besteht, neue Plünderungsgruben zu erkennen und nicht bereits existierende Gruben oder neue Instanzen anderer Kategorien. Ansätze zur satellitenbasierten Änderungserkennung fallen häufig in eine von zwei Kategorien: solche, die Pixel im Differenzbild klassifizieren, und solche, die zwei Bilder nach der Klassifizierung vergleichen [für Details siehe Singh (1989), Mas (1999), Coppin et al . (2004) und Lu et al. (2004)]. Auf Differenzbildern basierende Verfahren erfordern eine sehr strenge Pixelausrichtung zwischen Bildern (z. B. Dai und Khorram, 1998). Diese Anforderung ist problematisch, wenn Bilder mit sehr hoher Auflösung, mehrere Sensoren und unterschiedliche Aufnahmewinkel verwendet werden. Auf Differenzbildern basierende Methoden sind im Allgemeinen unempfindlich gegenüber Variationen in der Art der auftretenden Änderungen (Bruzzone und Prieto, 2000), was sie anfällig für sich bewegende Schatten, saisonale Änderungen und verschobene Objekte wie Sanddünen oder umgeparkte Lastwagen macht. Zusätzlich werden Differenzbilder durch das Entfernen von sich nicht ändernden Strukturen stark verarmt. Dies ist grundsätzlich einschränkend; unveränderliche Strukturen können immer noch gute Beispiele für die entstehenden Ziele und Distraktoren sein, und die Modellierung dieser Strukturen kann die Identifizierung von Zielen verbessern. Differenzbilder werden durch das Entfernen sich nicht verändernder Strukturen stark verarmt. Dies ist grundsätzlich einschränkend; unveränderliche Strukturen können immer noch gute Beispiele für die entstehenden Ziele und Distraktoren sein, und die Modellierung dieser Strukturen kann die Identifizierung von Zielen verbessern. Differenzbilder werden durch das Entfernen sich nicht verändernder Strukturen stark verarmt. Dies ist grundsätzlich einschränkend; unveränderliche Strukturen können immer noch gute Beispiele für die entstehenden Ziele und Distraktoren sein, und die Modellierung dieser Strukturen kann die Identifizierung von Zielen verbessern.

Die Analyse nach der Klassifizierung setzt die gesamte Szene jedes Bildes der Verarbeitung aus und ist zu einem beliebten Ansatz geworden. Wir verwenden diesen Ansatz zur Änderungserkennung hier. Von Menschen überwachte Klassifikatoren wie Support Vector Machines (SVMs) haben sich für den Klassifizierungsschritt als beliebt erwiesen, ebenso wie für andere Themen in der Fernerkundung. Zum Beispiel bewerteten Pal und Mather (2005) SVMs anhand der maximalen Wahrscheinlichkeit und Klassifikatoren künstlicher neuronaler Netze, die darauf trainiert waren, Landbedeckungstypen in multispektralen Satellitendaten zu erkennen. Sie stellten fest, dass jeder Klassifikator erfolgreich war, während SVMs die bessere Wahl waren. Mountrakis et al. (2011) beschreiben eine starke Zunahme der Anwendung dieser Methoden in den letzten Jahren, insbesondere zur Bodenbedeckungsklassifizierung mit multispektralen Daten. Ballabio und Sterlacchini (2012) gehen so weit, einen SVM-Klassifikator zu trainieren, um Regionen vorherzusagen, die in Zukunft für Erdrutsche anfällig sind. Trotz der Popularität von überwachten Klassifikatoren für Änderungserkennungsaufgaben in Bildern von geografischen Informationssystemen (GIS) werden wir zeigen, dass unser vorgeschlagener teilweise überwachter Algorithmus für unsere spezielle Aufgabe überlegen ist: Er erzeugt eine bessere Genauigkeit und falsch-positive Raten, während er unüberwachte Kategorien modelliert in den Daten sowie deren Lokalisierung.

Anspruchsvolle unbeaufsichtigte und teilweise beaufsichtigte Alternativen haben in letzter Zeit an Bedeutung gewonnen. Wenn jedes Pixel oder jede Pixelnachbarschaft im Bild als Datenpunkt betrachtet wird, bedeutet K-means Clustering (Hartigan und Wong, 1979; Rekik et al., 2006) oder ein lineares Regressionsmodell (Galton, 1894; Zhang et al., 2011) kann verwendet werden, um Gruppen von geänderten und unveränderten Pixeln zu trennen, und die Hauptkomponentenanalyse kann effektiv verwendet werden, um die Daten aufzubereiten (Celik, 2009a). Wissenschaftler haben den Kernel-Trick (Camps-Valls und Bruzzone, 2009) verwendet, um die Leistung zu verbessern, indem sie nichtlineare Klassifikatoren erstellten. Beispielsweise gruppierte eine Gruppe einen vorausgewählten Satz geänderter und unveränderter Pixel unter Verwendung von Kernel-K-Means und ordnete dann neue Pixel Kategorien zu, indem sie ihren einen nächsten Nachbarn (1NN) verwendeten (Volpi et al., 2012b). Andere Studien haben K-Means für die nicht dezimierte diskrete Wavelet-Transformation der Bilder sowie einen genetischen Algorithmus verwendet, um die Klassenfehler von „geänderten“ und „unveränderten“ Zuordnungen mit gleicher Wirksamkeit zu minimieren (Celik, 2009b, 2010). Keiner dieser Algorithmen erstellt ein generatives Modell der Daten und erstellt daher wahrscheinlich nicht die detaillierten Entscheidungsgrenzen, die für die Klassifizierung von Plünderungsgruben gegenüber einer Landschaft aus unzähligen strukturellen Distraktoren erforderlich sind.

Teilweise überwachte oder unüberwachte Ansätze können mit einer Vielzahl von Modellen verbessert werden. Bruzzone und Bovolo (2013) schlagen die manuelle Erstellung eines baumartigen hierarchischen Modells aller Änderungen vor, die über Bilder hinweg erwartet werden, um sowohl erwünschte als auch unerwünschte Änderungen zu modellieren. Das Modellieren der zugrunde liegenden Datenstruktur unter Verwendung von nicht überwachtem Clustering verbessert häufig die Leistung von überwachten Klassifikatoren. Beispielsweise verwendete eine Gruppe K-Means-Cluster, um Datenpunkte auszuwählen, für die menschliches Feedback einen SVM-Klassifikator verbessern könnte (Liu et al., 2008). Vor kurzem haben Volpi et al. (2012a) verwendeten einen ähnlichen Ansatz, um Datenpunkte für menschliches Feedback auszuwählen, indem sie hierarchische K-Means und eine adaptive Heuristik verwendeten. Die Suche nach Plündergruben unter mehreren Instanzen von Wüsten- und Stadtzielen unter Verwendung eines minimalen Datensatzes stellt besondere Anforderungen an einen modellbasierten Ansatz. Die Modellierung des gesamten Satzes beobachteter Objekte erfordert jedoch einen unerschwinglich großen Datensatz. Die Software von eCognition (Hofmann, 2001; Hofmann et al., 2008) ist in der Lage, Farbhistogrammobjekte gleichzeitig in mehreren Maßstäben zu modellieren und das Bild zu segmentieren, um sie zu lokalisieren. Die Lokalisierung hilft bei der unbeaufsichtigten Objekterkennung, indem irrelevante Pixel aus jedem Kategorie-Prototyp entfernt und die Merkmalsauswahl durchgeführt wird. Da jedoch der Ansatz von eCognition für diese Aufgabe Strukturinformationen ignoriert und im Grunde unüberwacht ist, kann er nicht dazu geführt werden, relativ wenige Plünderungsgrubenstrukturen unter zahlreichen Instanzen von so vielen Ablenkerklassen zu identifizieren. Ioannidiset al. (2009) beschreiben einen Algorithmus zur Identifizierung von Neubauten in ländlicher Umgebung. Die Autoren identifizierten veränderte Gebäude mithilfe eines wissensbasierten Ansatzes auf Stereobildern, um „Boden“ vs. „Oberirdisch“ zu kategorisieren, aber erst, nachdem sie eine Reihe von Tricks angewendet hatten, um Fehlalarme (FPs) durch Erhöhen des Verhältnisses von Ziel und Nicht zu eliminieren -Zielpixel. In einem gemeinsamen Muster versuchen diese Algorithmen entweder alle beobachteten Klassen oder nur die interessierenden Klassen zu modellieren.

Wir schlagen ein neuartiges Kategorisierungsschema und seine Verwendung als zentrale Komponente einer Analysetechnik nach der Klassifizierung zur Erkennung von Änderungen vor. Unser Algorithmus wird von hierarchischem Clustering abgeleitet, das vom Gehirn zur Verwendung bei der Identifizierung wiederholter strukturell konsistenter kleiner Ziele unter vielen wiederholten Distraktoren durchgeführt wird. Unser Ansatz verbessert die Identifizierung einer bestimmten Beobachtungskategorie durch die Modellierung zahlreicher Kategorien. Es vermeidet die Modellierung aller potenziellen Objektkategorien, indem nur diejenigen modelliert werden, die für die Unterscheidungskraft des Ziels relevant sind. Es lokalisiert Instanzen jeder Beobachtungskategorie, um uninformative Pixel zu ignorieren. Dies wird erreicht, indem nur die Positionen von Mitgliedern der relativ seltenen Zielkategorie als überwachte Markierungen verwendet werden und die Notwendigkeit eines kostspieligen menschlichen Eingriffs zur Parameteranpassung oder Auflösung hoher falsch-positiver Raten vermieden wird. Schließlich kann es den ersten Algorithmus zur satellitengestützten Identifizierung von strukturell konsistenten Bodenmerkmalsänderungen für die Archäologie veranschaulichen.

In den folgenden Abschnitten stellen wir unseren Algorithmus vor, der auf kürzlich entwickelten Bildanalysemethoden zur Erkennung und Lokalisierung basiert (Chandrashekar und Granger, 2012; Chandrashekar et al., 2014). Wir wenden unseren Algorithmus auf ein großes (239 Millionen Pixel) Satellitenbild der Pyramidenfeldzone in Ägypten an, wo die organisierte Plünderung von Grabstätten im Gange ist (Abbildung 1). Wir zeigen kreuzvalidierte Erfolgs- und Fehlalarmraten für geplünderte Gruben und vergleichen diese direkt mit SVM auf Taschen mit visuellen Wörtern, einer Standardmethode zur Klassifizierung in Satellitenbildern und anderen Bereichen.

Abbildung 1. Satellitenbild aus der Wüste Sakkara, Ägypten . Mittlere Bodenprobenentfernung 0,71 m. (A) Vollbild (10.148 × 23.561 Pixel) der Grenze zwischen unbesiedelter Wüste und besiedelten Regionen (siehe Text). (B) Nahaufnahme der durch den Umriss in Feld (A) gekennzeichneten Region im Jahr 2011, in der Hinweise auf Plünderungen zu sehen sind (kleine dunkle Flecken in eingekreisten Regionen). (C) Nahaufnahme mehrerer Plünderungsgruben. Alle relevanten Genehmigungen für die Veröffentlichung der Abbildung wurden eingeholt.

Algorithmusbeschreibung

Der hier vorgestellte neue hierarchische Kategorisierungs- und Lokalisierungsalgorithmus (HCAL) ist eine Methode zur teilweise überwachten Klassifizierung und Lokalisierung, die aus früheren Arbeiten zur teilweise überwachten Klassifizierung allein (Chandrashekar und Granger, 2012) und zur unüberwachten Lokalisierung allein (Chandrashekar et al., 2014) abgeleitet wurde ). Der resultierende Algorithmus gruppiert Bilder nach Ähnlichkeit, während er gleichzeitig Bildregionen identifiziert, die wahrscheinlich Beispiele dieser Cluster enthalten. Anschließend werden die Kategoriedeskriptoren für diese Bilder sukzessive eingegrenzt, bis sie spezifische Merkmale identifizieren, die Zielbilder von zerstörten archäologischen Grabstätten oder nützlich unterscheidbaren Nicht-Zielobjekten darstellen.

Intuitiv identifiziert der HCAL-Algorithmus zuerst wiederholte Merkmalsmotive, die in dem Satz von Bildern vorkommen, unter Verwendung von unüberwachten Verfahren, wodurch Kandidaten-Merkmalssätze lokalisiert werden. Es kategorisiert dann (wiederum ohne Aufsicht) Bilder basierend auf Ähnlichkeit. Schließlich werden die Mitglieder dieser auf Ähnlichkeit basierenden Kategorien auf nicht übereinstimmende (überwachte) Bezeichnungen überprüft – das erste Mal, wenn auf überwachte Informationen verwiesen wird. Wenn nicht übereinstimmende Bezeichnungen gefunden werden (z. B. eine Kategorie, die sowohl Plündergruben als auch andere Objekte enthält), teilt der Algorithmus die Kategorien erneut hierarchisch auf rein unbeaufsichtigte Weise auf. Dieses Verfahren wird wiederholt, bis Cluster reine Pit-Bilder, reine Nicht-Pit-Bilder oder sehr wenige (z. B. 7) Bilder enthalten. Die resultierende Datenstruktur enthält hierarchische Kategorien von Bildregionen, wobei Blätter des hierarchischen Baums Unterkategorien entsprechen, die jeweils ein gemeinsames überwachtes Etikett teilen. Die Verwendung von unüberwachten Aufteilungen bewirkt, dass der HCAL-Algorithmus das Strukturmodell der Daten lernt, wodurch intelligentere Entscheidungsgrenzen ermöglicht werden als durch überwachtes Lernen allein. Abbildung 2 zeigt ein Flussdiagramm und einen Pseudocode für den Algorithmus.

Abbildung 2. Flussdiagramm und Pseudocode für die hierarchische Kategorisierung und Lokalisierung (HCAL) . DisruptedSites⇀Archived enthält eine Liste mit Koordinaten bekannter zerstörter Grabstätten. Der gemeinsame Lokalisierungs- und Klassifizierungsalgorithmus (JLC) empfängt eine Dokumentenkarte (DMap⇀), eine Reihe von Unterfotos von vorab ausgewählten Trainingssatellitenbildern. JLC gibt Loc⇀FG, den Ort dieser beschrifteten Elemente in globalen Koordinaten, und H⇀FG, das Histogramm der Vordergrundpixelwerte, zurück. CSLTrain gibt CForest zurück, die Datenstruktur, die die hierarchische Clustering-Lösung darstellt. HCALTest erhält CForest als Darstellung dessen, was gelernt wurde, und DMap⇀New, eine Reihe von gekachelten Unterfotos von neuen „Test“-Satellitenbeobachtungen – die zu analysierenden Daten. Wenn HCALTest abgeschlossen ist, hat es L⇀FGPr ed generiert, eine Liste mit Bezeichnungen für jedes Unterfoto.

Trainingsschritte

Die vier Trainingsschritte des HCAL-Algorithmus lassen sich wie folgt zusammenfassen:

1. DMap⇀Archived←FeatureExtr(GISImages⇀Archived) DMap⇀New←FeatureExtr(GISImages⇀New) GIS-Daten von einem interessanten Ort werden in zahlreiche kleine Bilder aufgeteilt. Für jedes Bild haben wir Merkmale aus jedem Bild extrahiert, indem wir einen ähnlichen Prozess wie Chandrashekar et al. (2014). Dense Scale-Invariant Feature Transform (SIFT) (Lowe, 2004), Histogram of Oriented Gradients (HOG) (Dalal and Triggs, 2005) oder Speeded Up Robust Features (SURF) (Bay et al., 2008) erzeugten eine hochgradig dimensionale Darstellung jedes Pixels. Das Clustern jedes Bildes unter Verwendung von K-Means erzeugte eine 40-Cluster-Lösung im Pixel-Feature-Raum. Endlich, Wir haben den Satz aller Mittelwerte (40 pro Bild) mit K-Mittelwerten geclustert, um ein 40-Cluster-Vokabular von visuellen Wörtern im Pixel-Merkmalsraum für den gesamten Trainingsdatensatz zu erzeugen, und die Pixel für jedes Bild mit seinem nächsten Cluster neu nummeriert, der über den nächsten Nachbarn identifiziert wurde . Jedes Bild kann somit als Dokument visueller Worte betrachtet werden (Chandrashekar et al., 2014). Dann wurde eine Dokumentkarte (DMap⇀) erstellt, in der jedes Pixel basierend auf dem Vokabularwort, das sein Merkmal darstellt, beschriftet wurde. Basierend auf dem Vergleich der algorithmischen Gesamtleistung bei mehreren unterschiedlichen Mittelwerten haben wir unsere Wahl von 40 Mittelwerten analytisch bestimmt und können für die Anwendung auf komplexere städtische Datensätze erhöht werden. Dann wurde eine Dokumentkarte (DMap⇀) erstellt, in der jedes Pixel basierend auf dem Vokabularwort, das sein Merkmal darstellt, beschriftet wurde. Basierend auf dem Vergleich der algorithmischen Gesamtleistung bei mehreren unterschiedlichen Mittelwerten haben wir unsere Wahl von 40 Mittelwerten analytisch bestimmt und können für die Anwendung auf komplexere städtische Datensätze erhöht werden. Dann wurde eine Dokumentkarte (DMap⇀) erstellt, in der jedes Pixel basierend auf dem Vokabularwort, das sein Merkmal darstellt, beschriftet wurde. Basierend auf dem Vergleich der algorithmischen Gesamtleistung bei mehreren unterschiedlichen Mittelwerten haben wir unsere Wahl von 40 Mittelwerten analytisch bestimmt und können für die Anwendung auf komplexere städtische Datensätze erhöht werden.

2. Loc⇀FG, H⇀FG← JLC(DMap⇀) Der (unüberwachte) gemeinsame Lokalisierungs- und Klassifizierungsalgorithmus (JLC) wird auf dem Satz archivierter und neu verarbeiteter Bilder (DMap⇀) ausgeführt und erzeugt drei Datenstrukturen: (i ) Loc⇀FG, das ist der Ort einer Bildregion, von der angenommen wird, dass sie das „Vordergrund“-Objekt enthält (das in den Bildern wiederkehren soll), und (ii) das Histogramm der Merkmale H⇀FG, die innerhalb dieser Loc⇀FG-Region auftreten ( eine Tüte visueller Worte). Dieser Erwartungsmaximierungsalgorithmus findet K-Mittelwert-Clusterschwerpunkte in den Merkmalshistogrammen H⇀FG für jedes Bild und definiert dann den Vordergrund jedes Bildes Loc⇀FG neu, um am besten mit dem Schwerpunkt seines Clusters übereinzustimmen. Das Histogramm jedes Bildes H⇀FG wird neu definiert, indem nur Vordergrundpixel verwendet werden, und der Prozess wiederholt sich; siehe Chandrashekar et al. (2014).

3. L⇀FG← CalculateTrainLabels(Loc⇀FG, DisruptedSites⇀Archived) Von der JLC-Subroutine identifizierte Vordergrundorte werden mit einer Liste bekannter Orte DisruptedSites⇀Archived für Disrupted Burial Sites (DBSs) verglichen und basierend darauf gekennzeichnet, ob einer oder mehrere geplündert wurden Seiten sind im Vordergrund vorhanden.

4. CForest← CSLTrain(L⇀FG, H⇀FGTrain) Der halbüberwachte CSL-Klassifizierungsalgorithmus (Chandrashekar und Granger, 2012) wird auf die Menge von Paaren von Bild-Vordergrund-Histogrammen H⇀FG und überwachten Labels L⇀FG ( DBS/Nicht-DBS), die jedem solchen Histogramm entsprechen. Der CSL-Algorithmus generiert einen Baum (oder Wald von Bäumen), in dem jeder Knoten ein unüberwachtes K-Means-Clustering durchführt. Für jeden Cluster im Stammknoten, der Mitglieder von mehr als einem überwachten Label enthält, wird ein untergeordneter Knoten erstellt. Dieser untergeordnete Knoten wird nur den Mitgliedern dieses Clusters als Daten übergeben. Der Prozess wiederholt sich, bis jeder Blattknoten Mitglieder von nur einem Kategorieetikett enthält. Siehe Abbildung 3 für Pseudocode. Da die maximale Anzahl untergeordneter Knoten, die an einem beliebigen Knoten erstellt werden können, gleich der Anzahl der Cluster ist, der Verzweigungsfaktor (BF) dieses Baums ist gleich K (der Anzahl von Mittelwerten) in K-Mittelwerten. Die zeitliche Komplexität dieses Trainingsalgorithmus ist O(NK), wobei N die Anzahl der Bilder und K die Anzahl der Mittelwerte ist. Die Raumkomplexität ist dieselbe (Chandrashekar und Granger, 2012).

Abbildung 3. Pseudocode für die CSLTrain-Komponente des Algorithmus, abgeleitet mit Genehmigung von Algorithmus 1 von Chandrashekar und Granger (2012) .

Testschritt

Das HCAL-Verfahren zur Auswertung neuer Daten lässt sich wie folgt zusammenfassen:

1. L⇀FGPred←CSLTest(CForest,H⇀FGTest) Für jeden Durchlauf testeten wir den CSL-Algorithmus an Hold-out-Bildern, die ursprünglich nicht Teil des Trainingssatzes waren; Was zurückgegeben wird, ist der Satz vorhergesagter Labels (L⇀FGPred), die korrekt und falsch als DBS klassifiziert wurden. Im Wurzelknoten wird jeder Datenpunkt seinem nächstgelegenen Cluster zugeordnet und rekursiv an den entsprechenden untergeordneten Knoten weitergegeben. Dies wiederholt sich, bis der Datenpunkt in einen Blattknoten eintritt, wo ihm ein Etikett basierend auf dem Etikett der Trainingspunkte zugewiesen wird, die diesem Blattknoten während des Trainings zugewiesen wurden. Da dieser Ansatz auf eine Traversierung vom Wurzelknoten zu einem Blatt hinausläuft, ist die Zeitkomplexität in einem vollständigen Baum log-linear. Unter Verwendung eines einfachen Abstimmungsschemas können mehrere Bäume in einem zufälligen Wald kombiniert werden. Für diesen Versuch

Kontraste zum Stand der Technik

Viele Kategorisierungstechniken, die auf die Änderungserkennung in Satellitenbildern mit sehr hoher Auflösung zugeschnitten sind, sind nicht direkt auf die anstehende Aufgabe anwendbar. Plündergruben werden durch ihre Struktur definiert, daher funktionieren pixelbasierte, texturbasierte oder multispektrale Methoden nicht. Ablenker sind zahlreich, und sowohl Ziele als auch Ablenker sind vielfältig, sodass vollständig unüberwachte Methoden wahrscheinlich versagen. Diese Beschränkungen lassen wenige Optionen im Stand der Technik übrig, die zum Vergleich geeignet sind. Unsere Methode kann jedoch in zweierlei Hinsicht überwachten Methoden wie der SVM, einer der am häufigsten verwendeten statistischen Klassifizierungsmethoden für Remote-Bildgebung und andere Daten, gegenübergestellt werden: (i) SVMs klassifizieren ganze Eingabebilder, ohne die Merkmale im Bild zu lokalisieren, die am meisten für die Klassifizierung verantwortlich sind, und (ii) während SVMs mühsam (und rechenintensiv) eine „Trennoberfläche“ konstruieren, die alle Elemente einer Kategorie auf einer Seite des Trennzeichens enthält (in hochdimensionalen Eingabemerkmalen). space) und der anderen Kategorie auf der anderen Seite identifiziert der HCAL-Algorithmus einfach regionale Volumes im Space, die ähnlich aussehende Daten enthalten, und unterteilt diese Volumes iterativ, wenn sie nicht übereinstimmende Labels enthalten. Feinere Aufteilungen werden nur bei Bedarf durchgeführt. Es wird geschätzt, dass der CSLTrain-Mechanismus von HCAL in Bezug auf die Zeitkomplexität ungefähr eine Größenordnung weniger kostet als SVMs [für Beweise siehe Chandrashekar und Granger (2012)]. Hier vergleichen wir mit einer SVM mit linearen, quadratischen,

Daten

Der in der aktuellen Studie verwendete primäre Datensatz umfasste eine Reihe von Satellitenbildern aus der Pyramidenfeldregion Ägyptens, die vom Satelliten EROS-B1 mit einer panchromatischen mittleren Bodenprobenentfernung (räumliche Auflösung) von 0,71 m pro Pixel aufgenommen wurden. Es wurde ein großer Bereich (3.200 × 4.300 Pixel) getestet. Diese Region enthält mehrere Instanzen geplünderter Grabstätten, beträchtliche Weiten offener Wüste und mehrere Störfaktoren wie Ackerland, Gebäude, moderne (nicht-archäologische) Friedhöfe und Militärbasen mit Bombenkratern. Wie viele ähnliche Ansätze zur Überwachung von Strukturobjekten (z. B. Wei et al., 2004; Sirmacek und Unsalan, 2009) beschränken wir die Analyse auf Graustufenbilder, um die breite Anwendbarkeit über kommerzielle Satelliten mit hoher räumlicher Auflösung zu demonstrieren, von denen viele panchromatisch sind in hoher Auflösung (zB GeoEye-1, WorldView-2 und 3 und Ikonos). Die Luminanz wurde über den gesamten Datensatz normalisiert, um den Dynamikbereich zu verbessern.

Materialen und Methoden

Unser Team teilte die sehr hochauflösenden Satellitendaten in Kachelbilder der Größe 30 × 30 Pixel mit einer Überlappung von 10 Pixeln auf, um sicherzustellen, dass Merkmale in der Größenordnung von Plündergruben (im Allgemeinen kleiner als 10 Pixel im Durchmesser) in mindestens intakt sein könnten ein Bild. Aus diesen Bildern wurden 300 Plünderungsorte und 2.000 andere Orte nach dem Zufallsprinzip zur Verwendung ausgewählt (dargestellt in Abbildung S1 im Zusatzmaterial). Dieses unausgewogene Verhältnis ahmt die Bedingungen der realen Welt besser nach, in denen Plünderungsgruben nur einen kleinen Bruchteil der Landmasse bedecken. Um die begrenzte Anzahl von Trainingsbeispielen besser zu nutzen, haben wir die Anzahl der Trainingsbilder ohne Plündergruben auf die Anzahl der Trainingsbilder mit Gruben für die überwachten Komponenten des Algorithmus (CSLTrain) reduziert.

Wir haben JLC mit einer a priori Erwartung von 32 Bildclustern im Datensatz ausgeführt. Begrenzungsrahmen, die JLC verwenden, enthalten eine baumbasierte Pyramidensuche nach dem optimalen Rechteck. Unter Verwendung der Superpixel-basierten Lokalisierung (Beispiellokalisierungen in Abbildung 4; Ergebnisse in Abbildung S2 im Zusatzmaterial) identifizierte JLC eine zusammenhängende Kombination von Superpixeln, die zusammen das wahrscheinlichste Merkmalshistogramm erzeugten, das am wahrscheinlichsten zu einem Cluster gehört. Superpixel resultierten aus einer Übersegmentierung des Bildes; es wird angenommen, dass die meisten Objekte aus zahlreichen benachbarten Superpixeln bestehen. Leser können sich auf Chandrashekar et al. (2014) für weitere Details. Während der Grad der Segmentierung in dieser Studie von Hand auf die Übersegmentierung von Wüstenszenen abgestimmt wurde, wäre eine interessante zukünftige Arbeit die Anwendung einer adaptiven Segmentierungstechnik, wie Fuzzy-Binarisierung, die in Santosh et al. (2016), um den optimalen Grad der Übersegmentierung basierend auf den Wetterbedingungen automatisch zu identifizieren.

Abbildung 4. Lokalisierungsergebnisse für drei beispielhafte Satellitenbild-Patches . Obere Reihe: Superpixel-lokalisierte Regionen. Mittlere Reihe: Begrenzungsrahmen-lokalisierte Regionen. Untere Reihe: Heatmaps derselben Bilder, wobei hellere Farben die Position von Merkmalen anzeigen, die eher auf den Ähnlichkeitscluster des Teilbilds hinweisen. Rote Kreise markieren von Menschen lokalisierte Plünderungsgruben. Die Beispiele (A) und (B) enthalten Plünderungsgruben, während Beispiel (C) Strukturmauern enthält, in denen keine Gräber oder Plünderungsgruben vorhanden sind.

CSLTrain wurde mit einem Wald von 100 CSL-Bäumen implementiert, wobei jeder Knoten jedes Baums zufällig ausgewählte 20 % der 40 verfügbaren Merkmalshistogrammdimensionen bediente. Wir wählten Verzweigungsfaktoren von 2 und 6 aus einer Untersuchung der relativen Genauigkeiten vieler Verzweigungsfaktoren. In diesem Fall ist die Genauigkeit knapp über einem Verzweigungsfaktor von 2 am höchsten und fällt ab, wenn der Verzweigungsfaktor weiter erhöht wird. Praktisch zeigten viele Verzweigungsfaktoren eine akzeptable Leistung. Blattknoten, die weniger als sieben Datenpunkte beanspruchten, enthielten keine Teilung und waren stattdessen als Plünderungsgruben gekennzeichnet, je nachdem, ob die Mehrheit ihrer Datenpunkte eine oder mehrere Gruben enthielt. Wir haben die endgültigen Ergebnisse für CSLTest mithilfe eines einfachen Abstimmungsschemas neu kombiniert. Unser Team führte jeden Validierungsversuch durch, indem es zufällig 2.300 einzigartige Bilder auswählte (300 mit Plünderungen und 2, 000 ohne) mit Ersatz zwischen den Versuchen. In jedem Versuch haben wir eindeutige zufällige Initialisierungen für JLC und CSLTrain ausgewählt, die jeweils über eine Fehlerreduzierung von einem Anfangszustand aus funktionieren. Die Ergebnisse für jeden Versuch sind der Mittelwert über 3 verschiedene zufällige Initialisierungen, von denen jede als mittlere Ergebnisse von CSLTrain über 10 Bootstrap-Stichproben bewertet wird. Zwei Algorithmen werden verglichen; CSL auf den Ausgaben von JLC und SVM (lineare, quadratische und kubische Kernel) auf Beuteln mit visuellen Wörtern, die die Originalbilder darstellen. In Abbildung S3 im ergänzenden Material vergleichen wir auch CSL in den Ausgaben von JLC mit SVM (lineare, quadratische und kubische Kernel), LDA und Naive Bayes in den Ausgaben von JLC anstelle von CSLTrain und CSLTest. die jeweils über eine Fehlerreduzierung von einem Anfangszustand aus funktionieren. Die Ergebnisse für jeden Versuch sind der Mittelwert über 3 verschiedene zufällige Initialisierungen, von denen jede als mittlere Ergebnisse von CSLTrain über 10 Bootstrap-Stichproben bewertet wird. Zwei Algorithmen werden verglichen; CSL auf den Ausgaben von JLC und SVM (lineare, quadratische und kubische Kernel) auf Beuteln mit visuellen Wörtern, die die Originalbilder darstellen. In Abbildung S3 im ergänzenden Material vergleichen wir auch CSL in den Ausgaben von JLC mit SVM (lineare, quadratische und kubische Kernel), LDA und Naive Bayes in den Ausgaben von JLC anstelle von CSLTrain und CSLTest. die jeweils über eine Fehlerreduzierung von einem Anfangszustand aus funktionieren. Die Ergebnisse für jeden Versuch sind der Mittelwert über 3 verschiedene zufällige Initialisierungen, von denen jede als mittlere Ergebnisse von CSLTrain über 10 Bootstrap-Stichproben bewertet wird. Zwei Algorithmen werden verglichen; CSL auf den Ausgaben von JLC und SVM (lineare, quadratische und kubische Kernel) auf Beuteln mit visuellen Wörtern, die die Originalbilder darstellen. In Abbildung S3 im ergänzenden Material vergleichen wir auch CSL in den Ausgaben von JLC mit SVM (lineare, quadratische und kubische Kernel), LDA und Naive Bayes in den Ausgaben von JLC anstelle von CSLTrain und CSLTest. CSL auf den Ausgaben von JLC und SVM (lineare, quadratische und kubische Kernel) auf Beuteln mit visuellen Wörtern, die die Originalbilder darstellen. In Abbildung S3 im ergänzenden Material vergleichen wir auch CSL in den Ausgaben von JLC mit SVM (lineare, quadratische und kubische Kernel), LDA und Naive Bayes in den Ausgaben von JLC anstelle von CSLTrain und CSLTest. CSL auf den Ausgaben von JLC und SVM (lineare, quadratische und kubische Kernel) auf Beuteln mit visuellen Wörtern, die die Originalbilder darstellen. In Abbildung S3 im ergänzenden Material vergleichen wir auch CSL in den Ausgaben von JLC mit SVM (lineare, quadratische und kubische Kernel), LDA und Naive Bayes in den Ausgaben von JLC anstelle von CSLTrain und CSLTest.

Ergebnisse

Wir haben HCAL und Vergleichsalgorithmen auf zufällige Teilstichproben der Daten für die Kreuzvalidierung trainiert (siehe „Materialien und Methoden“). Die Ergebnisse der Identifizierung und Lokalisierung werden für ein Dashur-Satellitenbild gezeigt (Abbildung S1 im Zusatzmaterial). Der HCAL-Algorithmus kann entweder im Bounding-Box-Lokalisierungsmodus oder im Superpixel-Lokalisierungsmodus arbeiten. Die Lokalisierung von Plündergruben innerhalb von Bildern erschien in beiden Lokalisierungsmodi sinnvoll. Es ist wichtig, noch einmal darauf hinzuweisen, dass HCAL immer das wahrscheinlichste Objekt im Bild lokalisiert, wenn die anderen Bilder gegeben sind, unabhängig von seiner überwachten Bezeichnung.

Abbildung 5 veranschaulicht die statistischen Ergebnisse unter Verwendung von SIFT-Features und Begrenzungsrahmen für die Lokalisierung. Abbildung 5A zeigt die Genauigkeit der Vorhersagen, die von der hier vorgestellten HCAL-Methode und von SVM gemacht wurden, die auf einer einfachen Tasche visueller Wörter trainiert wurden, die auf den Originalbildern unter Verwendung desselben visuellen Vokabulars ausgeführt wurden. Im SVM-Fall wurden lineare, quadratische und kubische Kernel ausgewertet (siehe „Materialien und Methoden“). Die HCAL-Methode übertrifft die SVMs. In Abbildung 5B sind Genauigkeitsmessungen bei einem unterschiedlichen Prozentsatz der für das Training verwendeten Daten (von 20 bis 90 %) dargestellt. Es ist ersichtlich, dass die HCAL-Methode lineare SVMs zuverlässig um 2–4 Genauigkeitsprozentpunkte für alle verwendeten Größen von Trainingsdaten übertrifft. Ein Empfänger-Betriebskennliniendiagramm (Abbildung 6) zeigt, dass HCAL-Ergebnisse (wiederum SIFT-Merkmale und Bounding-Box-Lokalisierung) konkurrenzfähig mit den Ergebnissen linearer SVMs, nicht nur in Bezug auf die Genauigkeit der Vorhersage, sondern auch in Bezug auf niedrige falsch-positive Raten (14,62 ± 0,18 % für HCAL mit einem Verzweigungsfaktor von 2; 14,96 ± 0,17). % für HCAL mit einem Verzweigungsfaktor von 6; 17,75 ± 0,06 % für lineare SVM). Unter Verwendung von SIFT-Funktionen erzielt HCAL mit einem Verzweigungsfaktor von 2 eine Genauigkeit von 85,33 ± 0,16 gegenüber linearen SVMs von 82,11 ± 0,06. Die Ergebnisse sind bei Verwendung der SURF-Funktionen ähnlich. Die Genauigkeit wird durch die Verwendung der weniger beschreibenden, aber prägnanteren HOG-Funktionen auf ganzer Linie verringert, obwohl HCAL in diesem Fall immer noch SVM übertrifft (Abbildung S2A im ergänzenden Material). Wir haben auch die Superpixel-basierte Lokalisierung getestet, die im Allgemeinen schlechter abschneidet; Einzelheiten finden Sie in Abbildung S2B im Zusatzmaterial. Beispiele für typische Lokalisierungsergebnisse sind in Abbildung 4 verfügbar. Die resultierenden Baumstrukturen sind in Abbildung S4 im Zusatzmaterial verfügbar. Siehe Abbildung S6 im Zusatzmaterial für eine große Anzahl von Lokalisierungsbeispielen für die lokalisierte SIFT-Funktionsbedingung des Begrenzungsrahmens.

Abbildung 5. (A) Vorhersagegenauigkeit unter Verwendung eines Begrenzungsrahmen-Lokalisierers mit skaleninvarianten Merkmalstransformationsfunktionen (SIFT) für das Frontend, N = 100 pro SE-Balken; (B) Vorhersagegenauigkeit für Support-Vektor-Maschine (SVM) und hierarchische Kategorisierung und Lokalisierung (HCAL) als Funktion der Anzahl der Trainingsbeispiele unter Verwendung identischer Parameter (N = 50 pro SE-Balken).

Abbildung 6. Korrekte Identifikationsrate von gestörten Grabstätten (DBS) vs. Fehlalarmrate. Ergebnisse, die unter Verwendung von skaleninvarianten Feature-Transformations-Features mit Bounding-Box-Lokalisierung aus einem vollständigen Versuch generiert wurden (getestet mit 3 zufälligen Initialisierungen, jeweils 10 Bootstrap-Train/Test-Splits). Die Rate der korrekten Identifizierung, auch bekannt als Sensitivitäts- oder Richtig-Positiv-(TP)-Rate, wird gemessen als die Anzahl der positiven „DBS ist vorhanden“-Antworten des Algorithmus dividiert durch die Gesamtzahl der Bilder von DBSs. Die Fehlalarmrate oder Falsch-Positiv-Rate (FP) entspricht der Anzahl der negativen „kein DBS vorhanden“-Antworten des Algorithmus dividiert durch die Gesamtzahl der Bilder ohne DBS. Eine Position in der oberen linken Ecke eines Receiver Operating Characteristics (ROC)-Diagramms wie dieses ist wünschenswert, da es anzeigt, dass alle DBSs lokalisiert wurden, während keine Distraktoren mit DBSs verwechselt wurden. Zum Vergleich,

Diskussion

Der HCAL-Algorithmus übertrifft SVM unabhängig vom verwendeten Verzweigungsfaktor. Dies spiegelt die Bedeutung der Lokalisierung wiederholter Merkmale wider, die durch die Fähigkeit von HCAL weiter verbessert wird, die hierarchische Unterstruktur der Daten zu modellieren, um intelligentere Entscheidungsgrenzen zu schaffen. Inzwischen kann der Algorithmus auf einer Standard-Workstation ausgeführt werden, was ihn für eine breite Implementierung erschwinglich macht.

Wie unsere Daten zeigen, schneiden sowohl SVM als auch HCAL bei SIFT- und SURF-transformierten Bildern besser ab als bei HOG. Anekdotisch wurde festgestellt, dass dies auch für mehrere andere Merkmalstransformationen gilt. Zwei Faktoren könnten diesem Unterschied zugrunde liegen. Erstens könnten unterdurchschnittliche Lokalisierungen während der JLC-Phase der Klassentrennung während des CSLTrain vorbeugen, indem Regionen ausgeschlossen oder Distraktorpixel eingeschlossen werden. Dies würde jedoch nicht die reduzierte Leistung in SVM-Ergebnissen erklären, bei denen keine Lokalisierung durchgeführt wurde. Alternativ könnten die aus diesen Lokalisierungen generierten DMap-Histogramme (H⇀FG) aufgrund der in HOG-Deskriptoren codierten verarmten Merkmalsinformationen weniger informativ sein. Diese Erklärung scheint wahrscheinlicher.

Einer der wichtigsten treibenden Faktoren der Algorithmusauswahl für diesen Problembereich ist die Fähigkeit, mit einem minimalen Satz überwachter Labels zu funktionieren. HCAL erreicht dies, indem die Daten generativ modelliert werden und keine Bezeichnungen für die verschiedenen und zahlreichen Nicht-Zielklassen erforderlich sind. Mehrere Unterklassen einer Zielklasse können separat modelliert werden, und jede kann sich durch eindeutige Entscheidungsgrenzen von jeder Nicht-Zielklasse unterscheiden. Diese Grenzen sind aufgrund der hierarchischen Natur des CSL-Schritts nicht auf lineare Funktionen beschränkt. Dieselbe Funktion reduziert auch eine Überanpassung. Mit jeder hierarchischen Aufteilung der Daten während CSLTrain wird ein sehr einfacher Klassifikator erstellt (K-means und 1NN). Da rein gestörte Grabstätten (DBS) und reine Nicht-DBS-Cluster nie wieder getrennt werden, vermeidet das Modell unnötige Komplexität.

Wie im Abschnitt „Ergebnisse“ zu sehen ist, blieb HCAL SVM überlegen, als der Trainingsdatensatz schrumpfte. Im 20%-Trainingsfall konnte HCAL mit nur 32 Beispielbildern einen Wald von Differenzierungsbäumen aufbauen, der in der Genauigkeit SVM überlegen war. Die Fehlalarmrate für den HCAL-Algorithmus ist ziemlich niedrig, ebenso wie die FP-Rate für SVM, die den JLC-Vorschritt verwendet. Dies steht im Gegensatz zu konkurrierenden Algorithmen für diesen Problembereich, die oft auf viele FPs stoßen, ein verständliches Problem angesichts des Verhältnisses von Ziel- zu Nicht-Zielbildern. Obwohl unnötig, könnten zusätzliche Reduzierungen der Fehlalarmrate erreicht werden, indem derselbe Algorithmus auf einige der häufigsten Nicht-Zielkategorien trainiert und Instanzen dieser Kategorien aus dem Datensatz entfernt werden.

Wir haben eine zusätzliche Bewertung (Abbildung S3 im Zusatzmaterial) der Vorhersagegenauigkeit unter Verwendung von SVM (lineare, quadratische und kubische Kernel), LDA und Naive Bayes anstelle des CSL-Schritts durchgeführt. Ein direkter Vergleich dieser Algorithmen mit dem CSL-Schritt ist von untergeordnetem Interesse, da nur CSL die hierarchische generative Struktur der Daten lernt und es ihr ermöglicht, mehrere DBS- und Distraktorerscheinungsklassen zu modellieren. Die Ergebnisse zeigen, dass CSL zwar oft die beste Leistung erbringt, die Genauigkeit jedoch nicht so stark an diese Wahl gebunden ist – was am wichtigsten ist, ist die JLC-Lokalisierungsphase.

Unseres Wissens nach sind die von HCAL generierten Lokalisierungen in dieser Problemdomäne einzigartig. Alle bestehenden Segmentierungsansätze identifizieren die Ausdehnung eines Bildes nicht auf der Grundlage von Strukturinformationen, sondern auf der Grundlage von Kanten, Schlüsselpunkten, Textur oder spektralem Inhalt (z. B. Kass et al., 1988; Agouris et al., 2001; Hofmann, 2001; Wei et al ., 2004; Mayunga et al., 2005; Peng et al., 2005; Hofmann et al., 2008; Opitz und Blundell, 2008; Sirmacek und Unsalan, 2009). Im Gegensatz dazu arbeitet HCAL mit Fernerkundungsdaten, indem es nach identifizierten strukturellen Konfigurationen (wie in Abschnitt „Beschreibung des Algorithmus“ beschrieben) sucht. Ebenso interessant ist die spätere Fähigkeit des Verfahrens, nach Auffinden eines Strukturobjekts sukzessive feinkörnigere Lokalisierungen zu identifizieren (siehe „Trainingsschritte“ und „Testschritt“),

Unter bestimmten Bedingungen kann HCAL Plündergruben verpassen. In Bildern, in denen mehrere Instanzen desselben Objekts vorhanden sind, lokalisiert der Algorithmus häufig eine Teilmenge der Instanzen. Dies ist wahrscheinlich auf die Anforderung des Algorithmus zurückzuführen, dass Lokalisierungen die Form eines zusammenhängenden Superpixels oder Kästchens annehmen. Das Hinzufügen des Wüstensands zwischen DBSs zum Histogramm würde sich nachteilig auf die Bildung einer guten Übereinstimmung auswirken, aber die Mittelung eines anderen DBS in ein vorhandenes DBS-Histogramm ändert dies wenig. In der Praxis kann die Aufgabe, geplünderte Gebiete mit andauernder zusätzlicher Plünderung zu identifizieren, durch Maskieren von zuvor identifizierten Plünderungsgruben bewerkstelligt werden.

Eine Variante des Algorithmus, die Superpixel-basierte Lokalisierungen anstelle von Begrenzungsrahmen verwendet, wurde ebenfalls analysiert (Abbildung S2B im Zusatzmaterial). Unter einem solchen Schema funktionierte der HCAL-Algorithmus immer noch einigermaßen gut, hatte jedoch Schwierigkeiten, SVMs im SIFT-Funktionsfall zu übertreffen. Superpixel-basierte Lokalisierungen können komplexe konkave Regionen bilden. Diese Regionen können sich um zerstörte Grabstätten wickeln und einen Großteil der Pixel erfassen, die auf eine Störung hinweisen, ohne den von Menschen markierten Ort der Störung zu verdecken. Dies könnte zu DBS-negativen Exemplaren führen, die DBS-Merkmale enthalten. Dieses Problem ist möglicherweise spezifisch für ein punktbasiertes Überwachungskennzeichnungssystem, sodass weitere Arbeiten erforderlich sind, um die Auswirkungen von Lokalisierungsgrenzen auf HCAL zu ermitteln. Die Superpixel-Segmentierung selbst, die als Vorverarbeitungsschritt vor allen anderen Aufgaben durchgeführt wird,

Um mit HCAL nahezu optimale Ergebnisse zu erzielen, ist im Gegensatz zu bestehenden Methoden nur eine minimale Parameteranpassung erforderlich. Die wichtigsten Parameter in diesem Algorithmus sind die Vokabulargröße, aus der DMap⇀ generiert werden soll, die Anzahl der beim Lokalisieren zu erwartenden generativen Klassen und der Verzweigungsfaktor des CSL-Schritts. Wir haben eine Vokabulargröße von 40 gewählt, da sie anderen untersuchten Größen wie 20 oder 80 etwas überlegen ist. Zukünftige Arbeiten könnten eine verbesserte Leistung durch Feinabstimmung dieses Parameters finden. Wir haben die Verwendung von 16, 32 oder 64 generativen Klassen für die Lokalisierung untersucht. Der Unterschied in der Genauigkeit war minimal, daher berichten wir hier Ergebnisse für 32 Klassen. Der Verzweigungsfaktor macht einen wesentlichen Unterschied, und die Zahlen für zwei Verzweigungsfaktoren, 2 und 6, werden nebeneinander angegeben.

Präsentiert wird hier eine Komplettlösung zur Identifizierung von Zielkategorien in Fernerkundungsbildern. Das umfassendere Ziel besteht jedoch darin, eine schnelle Reaktion auf archäologische Plünderungen durch akademische Institutionen auf der ganzen Welt zu ermöglichen. Die Autoren schlagen ein System vor, mit dem Satellitenbilder von jedem interessanten Ort in regelmäßigen Abständen (wöchentlich oder monatlich, je nach Plünderungsrisiko des Ortes und laufender Schadensbewertung) heruntergeladen und jedes Bild auf Plünderungsgruben analysiert wird. Jedes neue Bild wird mit den Kategoriebezeichnungen (DBS/Nicht-DBS) früherer Ansichten derselben Koordinaten verglichen, und neue DBSs werden zur Bestätigung und Aktion an Menschen weitergeleitet. Bestätigte Plünderungsgruben können zu einem überwachten Datensatz hinzugefügt werden, um den Algorithmus in Zukunft neu zu trainieren. Diese Lösung hat auch Anwendungen in ganzen Ländern, in denen die Plünderungsmuster ähnlich sind. Während unsere Fehlerquoten aufgrund einer erhöhten Anzahl von Landklassifizierungseinheiten möglicherweise höher sind, würde unser Prozess Plünderungs-Hotspots für die Inspektion einzelner Standorte auswählen. Dies würde den zeitaufwändigsten Prozess der Plünderung von Karten für ein ganzes Land effektiv einsparen: das Scannen jeder Site einzeln und im Laufe der Zeit. Unsere vorgeschlagene Lösung würde auch Plünderungs-Hotspots an unbekannten Stätten (dh nicht in nationalen Datenbanken für archäologische Stätten oder GIS) ausfindig machen und sowohl die Registrierung neuer Stätten als auch den Schutz der Stätten erleichtern.

Abschluss

Der hier vorgestellte neuartige HCAL-Algorithmus ist ein idealer Kandidat für die VHD-Satellitenbildanalyse, wenn das Ziel darin besteht, zahlreiche Instanzen von Zielkategorien unter vielen Distraktoren mit minimalem menschlichen Eingriff und Trainingsdaten zu identifizieren. Wir erfassen zunächst zahlreiche Graustufen-VHD-Satellitenbilder von einer interessanten archäologischen Stätte, von denen einige Plünderungsgruben enthalten und viele nicht. Diese Bilder werden nach strukturellem Inhalt gruppiert, wobei unüberwachtes Clustering verwendet wird, während gleichzeitig die Regionen in jedem Bild lokalisiert werden, die strukturellen Inhalt enthalten, der mit dem Cluster des Bildes verbunden ist. Anschließend trainieren wir ein hierarchisches Modell der Daten, das aus mehreren Kategorien besteht, von denen einige auf der Grundlage menschlicher Kennzeichnung als Gruben enthaltend gekennzeichnet sind. Zahlreiche zukünftige Bilder können als Plündergruben basierend auf demselben System gekennzeichnet werden, und Ergebnisse können mit früheren Daten verglichen werden. Änderungen in Beschriftungen (nicht auf Pixelebene, sondern auf Bildebene) können für menschliche Bestätigung und Intervention markiert werden. Diese neuen Bilder können mit Archivbildern kombiniert werden, um die Aussagekraft des Modells für zukünftige Vorhersagen zu erhöhen. Wir haben gezeigt, dass dieses System in mehreren getesteten Teilregionen einer archäologischen Stätte in Ägypten gut funktioniert und trotz der großen Anzahl von Distraktoren vorteilhafte falsch-positive Raten erzeugt. HCAL ist der erste Algorithmus seiner Art, der zum Schutz archäologischer Stätten vor menschlichem Eingreifen eingesetzt wird. Es hat minimale Parameter, was es einfach macht, es auf neue Regionen anzuwenden. Wir spekulieren, dass es als Werkzeug für eine breite Palette von unbewaldeten Standorten, die von Plünderungen bedroht sind, einen hohen Wert haben wird. Obwohl die hier vorgestellte Methodik keine 100%ige Genauigkeit hat, Es könnte auf Satellitendatensätze eines ganzen Landes angewendet werden und die Mehrheit aller von Plünderungen betroffenen Orte finden (sowohl bekannte Orte als auch zuvor unbekannte Orte). Das Auffinden der tatsächlich von Plünderungen betroffenen Orte ist der zeitaufwändigste Prozess einer landesweiten Analyse. Wir haben einfach kein gutes Gefühl für die Gesamtzahl der von Plünderungen betroffenen Orte im Nahen Osten, noch haben wir eine effiziente Möglichkeit, landesweite Satellitendaten zu überwachen, um die Behörden zu warnen. Dieser automatisierte Ansatz ist derzeit das beste Werkzeug für die schnelle Analyse von Plünderungen im großen Stil. Wir haben einfach kein gutes Gefühl für die Gesamtzahl der von Plünderungen betroffenen Orte im Nahen Osten, noch haben wir eine effiziente Möglichkeit, landesweite Satellitendaten zu überwachen, um die Behörden zu warnen. Dieser automatisierte Ansatz ist derzeit das beste Werkzeug für die schnelle Analyse von Plünderungen im großen Stil. Wir haben einfach kein gutes Gefühl für die Gesamtzahl der von Plünderungen betroffenen Orte im Nahen Osten, noch haben wir eine effiziente Möglichkeit, landesweite Satellitendaten zu überwachen, um die Behörden zu warnen. Dieser automatisierte Ansatz ist derzeit das beste Werkzeug für die schnelle Analyse von Plünderungen im großen Stil.

Autorenbeiträge

Wesentliche Beiträge zur Konzeption oder Gestaltung der Arbeit; Verfassen der Arbeit oder kritisches Überarbeiten für wichtige intellektuelle Inhalte; endgültige Genehmigung der zu veröffentlichenden Version; und Zustimmung, für alle Aspekte der Arbeit verantwortlich zu sein, um sicherzustellen, dass Fragen im Zusammenhang mit der Genauigkeit oder Integrität eines Teils der Arbeit angemessen untersucht und gelöst werden: RG, EB, BT und SP.

Erklärung zu Interessenkonflikten

Die Autoren erklären, dass die Forschung ohne kommerzielle oder finanzielle Beziehungen durchgeführt wurde, die als potenzieller Interessenkonflikt ausgelegt werden könnten.

Finanzierung

Dieses Projekt wurde von der National Geographic Society, der National Science Foundation (OISE-1103878), D. Lehr und der Antiquities Coalition sowie der University of Alabama in Birmingham finanziert und teilweise durch den Zuschuss N00014-15-1-2132 unterstützt das Office of Naval Research und das Stipendium N000140-15-1-2823 von der Defense Advanced Research Projects Agency. SP möchte dem Ministerium für Altertümer in Ägypten für seine Unterstützung danken, darunter M. Damaty, H. el-Azm, K. Waheed, M. Ali und A. Ahmed.

Ergänzungsmaterial

Das ergänzende Material zu diesem Artikel finden Sie online unter https://www.frontiersin.org/article/10.3389/fict.2017.00004/full#supplementary-material.

Abkürzungen

BF, Verzweigungsfaktor; DBS, zerstörte Grabstätte; HCAL, hierarchische Kategorisierung und Lokalisierung (dieser Algorithmus); 1NN, Ein-Nächster-Nachbar-Klassifizierung; GIS, geografisches Informationssystem; PCA, Hauptkomponentenanalyse; ROC, Empfängerbetriebscharakteristik; SVM, Support-Vektor-Maschine.

Maschinelles Sehen, Archäologie, Kulturerbe, Plünderung, Automatisierung, Computeranalyse, hohe Auflösung, Ägypten

Leave a Comment