06_buildDT.Rmd

title: "sPlot 3.0 - Build DT"
author: "Francesco Maria Sabatini"
date: "2/24/2020"
output: html_document
knitr::opts_chunk$set(echo = TRUE)
library(tidyverse)
library(readr)
library(xlsx)
library(knitr)
library(kableExtra)

#save temporary files
write("TMPDIR = /data/sPlot/users/Francesco/_tmp", file=file.path(Sys.getenv('TMPDIR'), '.Renviron'))
write("R_USER = /data/sPlot/users/Francesco/_tmp", file=file.path(Sys.getenv('R_USER'), '.Renviron'))
#rasterOptions(tmpdir="/data/sPlot/users/Francesco/_tmp")
# escape all double quotation marks. Run in Linux terminal
# sed 's/"/\\"/g' sPlot_3_0_2_species.csv > sPlot_3_0_2_species_test.csv
DT0 <- readr::read_delim("../sPlot_data_export/sPlot_3_0_2_species_test.csv",
                            delim="\t",
                         col_type = cols(
                                PlotObservationID = col_double(),
                                Taxonomy = col_character(),
                                `Taxon group` = col_character(),
                                `Taxon group ID` = col_double(),
                                `Turboveg2 concept` = col_character(),
                                `Matched concept` = col_character(),
                                Match = col_double(),
                                Layer = col_double(),
                                `Cover %` = col_double(),
                                `Cover code` = col_character(),
                                x_ = col_double()
                              )
                         )
nplots <- length(unique(DT0$PlotObservationID))
nspecies <- length(unique(DT0$`Matched concept`))
set.seed <- 1984
sampled <- sample(unique(DT0$PlotObservationID), 10, replace=F)

knitr::kable(DT0 %>%
               filter(PlotObservationID %in% sampled[1:3]),
  caption="Example of initial DT table (3 randomly selected plots shown)") %>%
    kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"),
                  full_width = F, position = "center")
load("../_output/Backbone3.0.RData")
DT1 <- DT0 %>%
  left_join(Backbone %>%
              dplyr::select(Name_sPlot_TRY, Name_short, `Taxon group`, Rank_correct) %>%
              rename(`Matched concept`=Name_sPlot_TRY,
                     Taxongroup_BB=`Taxon group`),
            by="Matched concept") %>%
  # Simplify Rank_correct
  mutate(Rank_correct=fct_collapse(Rank_correct,
                                   lower=c("subspecies", "variety", "infraspecies", "race", "forma"))) %>%
  mutate(Rank_correct=fct_explicit_na(Rank_correct, "No_match")) %>%
  mutate(Name_short=replace(Name_short,
                            list=Name_short=="No suitable",
                            values=NA))
name.check <- DT1 %>%
  dplyr::select(`Turboveg2 concept`:`Matched concept`, Name_short) %>%
  rename(Name_TNRS=Name_short) %>%
  distinct() %>%
  mutate(Matched_short=word(`Matched concept`, start = 1L, end=2L)) %>%
  filter(is.na(Name_TNRS) | Matched_short != Name_TNRS) %>%
  dplyr::select(-Matched_short) %>%
  arrange(Name_TNRS)
knitr::kable(name.check %>% sample_n(30),
  caption="Check 30 random species names from DT that changed name after matching to backbone") %>%
    kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"),
                  full_width = F, position = "center")
name.check.freq <- DT1 %>%
  dplyr::select(`Turboveg2 concept`:`Matched concept`, Name_short) %>%
  rename(Name_TNRS=Name_short) %>%
  group_by(`Turboveg2 concept`, `Matched concept`, Name_TNRS) %>%
  summarize(n=n()) %>%
  mutate(Matched_short=word(`Matched concept`, start = 1L, end=2L)) %>%
  filter(is.na(Name_TNRS) | Matched_short != Name_TNRS) %>%
  dplyr::select(-Matched_short) %>%
  ungroup() %>%
  arrange(desc(n))
knitr::kable(name.check.freq %>% slice(1:40),
  caption="Check 40 most common species names from DT that changed name after matching to backbone") %>%
    kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"),
                  full_width = F, position = "center")
nknown <- DT1 %>% filter(`Taxon group`!="Unknown") %>% nrow()
nunknown <- DT1 %>% filter(`Taxon group`=="Unknown") %>% nrow()
table(DT1$`Taxon group`, exclude=NULL)

DT1 <- DT1 %>%
  mutate(`Taxon group`=ifelse(`Taxon group`=="Unknown", NA, `Taxon group`)) %>%
  mutate(Taxongroup_BB=ifelse(Taxongroup_BB=="Unknown", NA, Taxongroup_BB)) %>%
  mutate(`Taxon group`=coalesce(`Taxon group`, Taxongroup_BB)) %>%
  dplyr::select(-Taxongroup_BB)


table(DT1$`Taxon group`, exclude=NULL)
DT1 <- DT1 %>%
  mutate(`Taxon group`=replace(`Taxon group`,
                               list=`Cover code`=="x_BA",
                               values="Vascular plant"))

DT1 <- DT1 %>%
  left_join(DT1 %>%
              filter(!is.na(Name_short)) %>%
              filter(`Taxon group` != "Unknown") %>%
              dplyr::select(Name_short, `Taxon group`) %>%
              distinct(Name_short, .keep_all=T) %>%
              rename(TaxonGroup_compl=`Taxon group`),
            by="Name_short") %>%
  mutate(`Taxon group`=coalesce(`Taxon group`, TaxonGroup_compl)) %>%
  dplyr::select(-TaxonGroup_compl)

table(DT1$`Taxon group`, exclude=NULL)
#check for conflicts in attribution of genera to Taxon groups
DT1 %>%
  filter(!is.na(Name_short)) %>%
  filter(!is.na(`Taxon group`)) %>%
  distinct(Name_short, `Taxon group`) %>%
  mutate(Genus=word(Name_short,1)) %>%
  dplyr::select(Genus, `Taxon group`) %>%
  distinct() %>%
  group_by(Genus) %>%
  summarize(n=n()) %>%
  filter(n>1) %>%
  arrange(desc(n))
#Attach genus info
DT1 <- DT1 %>%
    left_join(Backbone %>%
              dplyr::select(Name_sPlot_TRY, Name_short) %>%
              mutate(Genus=word(Name_short, 1, 1)) %>%
              dplyr::select(-Name_short) %>%
              rename(`Matched concept`=Name_sPlot_TRY),
            by="Matched concept") %>%
    mutate(`Taxon group`=fct_collapse(`Taxon group`,
                                    Alga_Stonewort=c("Alga", "Stonewort")))
#manually fix some known problems
mosses.gen    <- c("Hypnum", "Brachytheciastrum","Brachythecium","Hypnum",
                  "Zygodon", "Oxymitra", "Bryophyta", "Musci", '\\\"Moos\\\"')
vascular.gen  <- c("Polystichum", "Hypericum", "Peltaria", "Pancovia", "Calythrix", "Ripogonum",
                  "Notogrammitis", "Fuscospora", "Lophozonia",  "Rostellularia",
                  "Hesperostipa", "Microsorium", "Angiosperm","Dicotyledonae", "Spermatophy")
alga.gen      <- c("Chara", "Characeae", "Tonina", "Nostoc", "Entermorpha", "Hydrocoleum" )

DT1 <- DT1 %>%
  mutate(`Taxon group`=replace(`Taxon group`,
                               list=Genus %in% mosses.gen,
                               values="Moss")) %>%
  mutate(`Taxon group`=replace(`Taxon group`,
                               list=Genus %in% vascular.gen,
                               values="Vascular plant")) %>%
  mutate(`Taxon group`=replace(`Taxon group`,
                               list=Genus %in% alga.gen,
                               values="Alga_Stonewort")) %>%
  mutate(`Taxon group`=replace(`Taxon group`,
                               list=Genus %in% c(lichen.genera, "Lichenes"),
                               values="Lichen")) %>%
  mutate(`Taxon group`=replace(`Taxon group`,
                               list=Genus %in% mushroom,
                               values="Mushroom"))

table(DT1$`Taxon group`, exclude=NULL)
DT1 <- DT1 %>%
  dplyr::select(-Genus) %>%
  left_join(DT1 %>%
              distinct(`Matched concept`) %>%
              mutate(Genus=word(`Matched concept`, 1)),
            by="Matched concept") %>%
  mutate(`Taxon group`=replace(`Taxon group`,
                                 list=Genus %in% mushroom,
                                 values = "Mushroom")) %>%
  mutate(`Taxon group`=replace(`Taxon group`,
                               list=Genus %in% lichen.genera,
                               values="Lichen")) %>%
  mutate(`Taxon group`=replace(`Taxon group`,
                               list=Genus %in% mosses.gen,
                               values="Moss")) %>%
  mutate(`Taxon group`=replace(`Taxon group`,
                               list=Genus %in% vascular.gen,
                               values="Vascular plant")) %>%
  mutate(`Taxon group` = fct_explicit_na(`Taxon group`, "Unknown")) %>%
  filter(`Taxon group`!="Mushroom") %>%
  mutate(`Taxon group`=factor(`Taxon group`))
  #dplyr::select(-Genus)

table(DT1$`Taxon group`, exclude=NULL)
nunknown <- DT1 %>% filter(`Taxon group`=="Unknown") %>% nrow()
#Check the most frequent genera for which we don't have taxon group info
DT1 %>%
  filter(`Taxon group` == "Unknown") %>%
  group_by(Genus) %>%
  summarize(n=n()) %>%
  arrange(desc(n)) %>%
    slice(1:40)
# Create Ab_scale field
DT1 <- DT1 %>%
  mutate(Ab_scale = ifelse(`Cover code` %in%
                             c("x_BA", "x_IC", "x_SC", "x_IV", "x_RF") & !is.na(x_),
                           `Cover code`,
                           "CoverPerc"))
allzeroes <- DT1 %>%
  group_by(PlotObservationID) %>%
  summarize(allzero=all(`Cover %`==0) ) %>%
  filter(allzero==T) %>%
  pull(PlotObservationID)
DT1 <- DT1 %>%
  mutate(`Cover %`=replace(`Cover %`,
                           list=(PlotObservationID %in% allzeroes),
                           values=1)) %>%
  mutate(`Cover code`=replace(`Cover code`,
                           list=(PlotObservationID %in% allzeroes),
                           values="x"))
#plots with at least one entry in Cover code=="x"
sel <- DT1 %>%
  filter(`Cover code`=="x") %>%
  distinct(PlotObservationID) %>%
  pull(PlotObservationID)

DT1 <- DT1 %>%
  left_join(DT1 %>%
              filter(PlotObservationID %in% sel) %>%
              group_by(PlotObservationID, Layer) %>%
              mutate(to.pa= all(`Cover %`==1 & `Cover code`=="x")) %>%
              distinct(PlotObservationID, Layer, to.pa),
            by=c("PlotObservationID", "Layer")) %>%
  replace_na(list(to.pa=F)) %>%
  mutate(Ab_scale=ifelse(to.pa==T, "pa", Ab_scale)) %>%
  mutate(`Cover %`=ifelse(to.pa==T, NA, `Cover %`)) %>%
  mutate(x_=ifelse(to.pa==T, 1, x_)) %>%
  dplyr::select(-to.pa)
mixed <- DT1 %>%
  distinct(PlotObservationID, Ab_scale, Layer) %>%
  group_by(PlotObservationID, Layer) %>%
  summarize(n=n()) %>%
  filter(n>1) %>%
  pull(PlotObservationID) %>%
  unique()
length(mixed)
DT1 <- DT1 %>%
  mutate(Ab_scale=replace(Ab_scale,
                           list=PlotObservationID %in% mixed,
                           values="mixed")) %>%
  mutate(`Cover %`=replace(`Cover %`,
                           list=Ab_scale=="mixed",
                           values=NA)) %>%
  mutate(x_=replace(x_,  list=Ab_scale=="mixed", values=1)) %>%
  mutate(Ab_scale=replace(Ab_scale, list=Ab_scale=="mixed", values="pa")) %>%
  #Create additional field Abundance to avoid overwriting original data
  mutate(Abundance =ifelse(Ab_scale %in% c("x_BA", "x_IC", "x_SC", "x_IV", "x_RF", "pa"),
                          x_, `Cover %`)) %>%
  mutate(Abundance=replace(Abundance,
                           list=PlotObservationID %in% mixed,
                           values=1))
scale_check <- DT1 %>%
  distinct(PlotObservationID, Layer, Ab_scale) %>%
  group_by(PlotObservationID) %>%
  summarise(Ab_scale_combined=ifelse(length(unique(Ab_scale))==1,
                                     unique(Ab_scale),
                                     "Multiple_scales"))

nrow(scale_check)== length(unique(DT1$PlotObservationID))
table(scale_check$Ab_scale_combined)
DT1 <- DT1 %>%
  left_join(x=.,
            y={.} %>%
              group_by(PlotObservationID) %>%
              summarize(tot.abundance=sum(Abundance)),
            by=c("PlotObservationID")) %>%
  mutate(Relative.cover=Abundance/tot.abundance)

# check: there should be no plot where the sum of all relative covers !=0
DT1 %>%
  group_by(PlotObservationID) %>%
  summarize(tot.cover=sum(Relative.cover),
            num.layers=sum(unique(Layer))) %>%
  filter(tot.cover != num.layers) %>%
  nrow()
DT2 <- DT1 %>%
  dplyr::select(PlotObservationID, Name_short, `Turboveg2 concept`, Rank_correct, `Taxon group`, Layer:x_, Ab_scale, Abundance, Relative.cover ) %>%
  rename(species_original=`Turboveg2 concept`,
         species=Name_short,
         taxon_group=`Taxon group`,
         cover_perc=`Cover %`,
         cover_code=`Cover code`)
knitr::kable(DT2 %>%
               filter(PlotObservationID %in% sampled[1:3]),
  caption="Example of initial DT table (same 3 randomly selected plots shown above)") %>%
    kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"),
                  full_width = F, position = "center")
save(DT2, file = "../_output/DT_sPlot3.0.RData")
sessionInfo()