04_buildHeader.Rmd

title: "sPlot3.0 - Build Header"
author: "Francesco Maria Sabatini"
date: "2/4/2020"
output: html_document
knitr::opts_chunk$set(echo = TRUE)
library(tidyverse)
library(purrr)
library(viridis)
library(readr)
library(xlsx)
library(knitr)
library(kableExtra)

## Spatial packages
library(rgdal)
library(sp)
library(rgeos)
library(raster)
library(rworldmap)
library(elevatr)
library(sf)
library(rnaturalearth)
library(dggridR)
library(shotGroups) #minCircle

#save temporary files
write("TMPDIR = /data/sPlot/users/Francesco/_tmp", file=file.path(Sys.getenv('TMPDIR'), '.Renviron'))
write("R_USER = /data/sPlot/users/Francesco/_tmp", file=file.path(Sys.getenv('R_USER'), '.Renviron'))
rasterOptions(tmpdir="/data/sPlot/users/Francesco/_tmp")
# escape all double quotation marks. Run in Linux terminal
#sed 's/"/\\"/g' sPlot_3_0_2_header.csv > sPlot_3_0_2_header_test.csv

#more general alternative in case some " are already escaped
##first removing \s before all "s, and then adding \ before all ":
#sed 's/\([^\\]\)"/\1\\\"/g; s/"/\\"/g'
header0 <- readr::read_delim("../sPlot_data_export/sPlot_3_0_2_header_test.csv",
                             locale = locale(encoding = 'UTF-8'),
                            delim="\t", col_types=cols(
  PlotObservationID = col_double(),
  PlotID = col_double(),
  `TV2 relevé number` = col_double(),
  Country = col_character(),
  `Cover abundance scale` = col_factor(),
  `Date of recording` = col_date(format="%d-%m-%Y"),
  `Relevé area (m²)` = col_double(),
  `Altitude (m)` = col_double(),
  `Aspect (°)` = col_double(),
  `Slope (°)` = col_double(),
  `Cover total (%)` = col_double(),
  `Cover tree layer (%)` = col_double(),
  `Cover shrub layer (%)` = col_double(),
  `Cover herb layer (%)` = col_double(),
  `Cover moss layer (%)` = col_double(),
  `Cover lichen layer (%)` = col_double(),
  `Cover algae layer (%)` = col_double(),
  `Cover litter layer (%)` = col_double(),
  `Cover open water (%)` = col_double(),
  `Cover bare rock (%)` = col_double(),
  `Height (highest) trees (m)` = col_double(),
  `Height lowest trees (m)` = col_double(),
  `Height (highest) shrubs (m)` = col_double(),
  `Height lowest shrubs (m)` = col_double(),
  `Aver. height (high) herbs (cm)` = col_double(),
  `Aver. height lowest herbs (cm)` = col_double(),
  `Maximum height herbs (cm)` = col_double(),
  `Maximum height cryptogams (mm)` = col_double(),
  `Mosses identified (y/n)` = col_factor(),
  `Lichens identified (y/n)` = col_factor(),
  COMMUNITY = col_character(),
  SUBSTRATE = col_character(),
  Locality = col_character(),
  ORIG_NUM = col_character(),
  ALLIAN_REV = col_character(),
  REV_AUTHOR = col_character(),
  Forest = col_logical(),
  Grassland = col_logical(),
  Wetland = col_logical(),
  `Sparse vegetation` = col_logical(),
  Shrubland = col_logical(),
  `Plants recorded` = col_factor(),
  `Herbs identified (y/n)` = col_factor(),
  Naturalness = col_factor(),
  EUNIS = col_factor(),
  Longitude = col_double(),
  Latitude = col_double(),
  `Location uncertainty (m)` = col_double(),
  Dataset = col_factor(),
  GUID = col_character()
)) %>%
  rename(Sparse.vegetation=`Sparse vegetation`,
         ESY=EUNIS) %>%
  dplyr::select(-COMMUNITY, -ALLIAN_REV, -REV_AUTHOR, -SUBSTRATE) %>%   #too sparse information to be useful
  dplyr::select(-PlotID) #identical to PlotObservationID
header0 <- header0 %>%
  filter(!PlotObservationID %in% c(1707776, 1707779:1707782, 1707849, 1707854)) %>%
  filter(Dataset != "$Coastal_Borja") %>%
  filter(Dataset != "$Coastal_Poland")
header <- header0 %>%
  mutate(Latitude=replace(Latitude,
                          list=(is.na(Latitude) & Dataset=="Egypt Nile delta"),
                          values=30.917351)) %>%
  mutate(Longitude=replace(Longitude,
                          list=(is.na(Longitude) & Dataset=="Egypt Nile delta"),
                          values=31.138534)) %>%
  mutate(`Location uncertainty (m)`=replace(`Location uncertainty (m)`,
                          list=(is.na(`Location uncertainty (m)`) & Dataset=="Egypt Nile delta"),
                          values=-90000))
toswap <- c(which(header$Dataset=="Japan" & header$Latitude>90),
            which(header$Dataset=="Romania Grassland Database" & header$Longitude>40),
            which(header$PlotObservationID==525283))
header[toswap, c("Latitude", "Longitude")] <- header[toswap, c("Longitude", "Latitude")]
nouncert <- nrow(header %>% filter(is.na(`Location uncertainty (m)`)))
header <- header %>%
  left_join(header %>%
              group_by(Dataset) %>%
              summarize(loc.uncer.median=median(`Location uncertainty (m)`, na.rm=T)),
            by="Dataset") %>%
  mutate(`Location uncertainty (m)`=ifelse( is.na(`Location uncertainty (m)` & !is.na(Latitude)),
                                            -abs(loc.uncer.median),
                                            `Location uncertainty (m)`)) %>%
  dplyr::select(-loc.uncer.median)
nouncert <- nrow(header %>% filter(is.na(`Location uncertainty (m)`)))
header <- header %>%
  mutate(`Relevé area (m²)`=ifelse( (Dataset=="Patagonia" & is.na(`Relevé area (m²)`)),
                                    -900, `Relevé area (m²)`))