74d4d19996274f1b798c7a7841d8a734.ppt
- Количество слайдов: 22
Качество данных Таксономические и номенклатурные данные A. D. Chapman Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007
Утверждение данных Два ключевых источника ошибки: Таксономические названия Географические ссылки (широта, долгота) Новые методы обнаружения ошибки Зарегистрированы здесь -------> Доступны через веб-сайт GBIF http: //www. gbif. org Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007
Таксономические данные Состоят из: (не всегда присутствуют): – название (научное, общее, иерархическое, ранг) – номенклатурный статус (синоним, принятый, типификация) – справочная информация (автор, место и время публикации) – определение (кем и когда была установлена запись) – упоминание типа образца – области качества (точность определения, спецификаторы) Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007
Таксономические данные • На способность организации производить высококачественные таксономические продукты влияют: – уровень обучения и опыт персонала, – уровень доступа к технической литературе, справочная информация, подтверждающие коллекции и таксономические специалисты, – наличие соответствующего лабораторного оборудования и средств, и – доступ к интернету и доступным там ресурсам (after Stribling et al. 2003) Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007
Определение качества • Не всегда легко • Редко выполняется • Использование ошибок определения (Determinavit) • Определители (aff, cf. , s. str. , s. lat. , ? ) • Документирование? Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007
Качество таксономических данных документирования • Несколько методов документирования таксономического подтверждения – ни один из них не удовлетворителен полностью – Информационные стандарты и протоколыгербария для обмена данными (HISPID) – Австралийская Национальная Коллекция Рыбы (1993) – Несколько других ограничены в пределах одной или двух организаций • Предложение – 4 уровня: – кто определил образец и когда – что использовали (типовой образец, местную флору, монографии и т. д. ) – уровень компетенции определяющего – какой конфиденциальностью обладал определяющий Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007
Определение качества - 2 From: Информационные стандарты и протоколыгербария для обмена данными (HISPID) 0 название записи еще не проверялось никем из специалистов 1 название записи определялось в сравнении с другими названными растениями/животными 2 название записи определялось таксономистом и другим компетентным лицом с использованием коллекций и/или библиотеки и/или живого материала 3 название растения определялось таксономистом, участвующим в систематической проверке группы 4 запись – часть типового сбора Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007
Определение качества - 3 From: Австралийская Национальная Коллекция Рыбы (1993) Уровень 1: Очень надежная идентификация Образец, идентифицированный (a) международно признанным специалистом группы или (b) специалистом, который в настоящее время изучает или который делал обзор группы в Австралийском регионе. Уровень 2: Идентификация, сделанная с высокой степенью доверенности на всех уровнях Образец, определенный обученным специалистом, кто обладал предварительным знанием группы в Австралийском регионе или использовал доступную литературу, чтобы идентифицировать образец для испытания. Уровень 3: Идентификация, сделанная с высокой степенью доверенности для рода, но меньше для вида Образец, идентифицированный (a) обученным специалистом, который был уверен в родовом размещении, но не доказывал их видовую идентификацию с использованием литературы; или (b) обученным специалистом, который использовал литературу, но не смог сделать положительную идентификацию для вида; или (c) нетренированным специалистом, который использовал большую часть доступной литературы, чтобы провести идентификацию. Уровень 4: Идентификация с ограниченной степенью доверенности Образец, идентифицированный (a) обученным специалистом, кто уверен относительно размещения семейства, но неуверен в размещении рода или идентификации вида (литература кроме иллюстраций не использовалась), или (b) нетренированным идентификатор, кто имел/использовал ограниченная литература, чтобы сделать идентификацию. Уровень 5: Распознавание идентификации Образец, идентифицированный (a) обученным специалистом, кто неуверен в размещении семейства вида (внесение в каталог только идентификации), (b) нетренированным специалистом использующим, в лучшем случае, числа в справочнике, или (c), где статус и квалификация специалиста - неизвестны. Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007
Подтверждающий статус таксона предложенный Имя специалиста, проводящего определение : Дата определения: : Источник определения: (н-р, сравненный с голотипом, использованная национальная флора) Идентифицирован международно-известным экспертом по таксонам с высокой уверенностью Идентифицирован международно-известным экспертом по таксонам с некоторой долей сомнения Идентифицирован регионально-известным экспертом по таксонам с высокой уверенностью Идентифицирован регионально-известным экспертом по таксонам с некоторой долей сомнения Идентифицирован коллекционером с высокой уверенностью Идентифицирован коллекционером с некоторой долей сомнения Arthur Chapman CWR Training Course From: Nov 2007 Tashkent, Uzbekistan, Chapman (2005) Principles of Data Quality. GBIF
Проверка ошибок • Значение пропущенных данных – пустые поля, где может произойти оценка (например, если присутствует название вида, то родовое название тоже ДОЛЖНО присутствовать) Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007
Проверка ошибок • Значение неправильных данных – типографические ошибки, – изменение порядка при нажатии клавиш, – данные, введенные в неправильное место (н-р, представление названия вида в поле для названия рода) Может часто идентифицироваться, используя методики Soundex/Phonex Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007
Проверка ошибок • Значение неатомных данных – в одно поле введено больше одного факта (н-р, биноминальное или триномиальное представление вида в одном поле) Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007
Проверка ошибок • Шизофрения домена (области) – поля использовались в не предназначенных для них целях e. g. Хорошая справочная информация : Dalcin, E. C. 2004. Data Quality Concepts and Techniques Applied to Taxonomic Databases. Thesis for the degree of Doctor of Philosophy, School of Biological Sciences, Faculty of Medicine, Arthur Chapman CWR Training Course Health and Life Sciences, University of Southampton. November 2004. 266 pp. Tashkent, Uzbekistan, Nov 2007
Очистка данных CRIA http: //splink. cria. org. br/dc HSJRP Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007
Очистка данных CRIA Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007
Очистка данных CRIA Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007
Очистка данных CRIA Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007
Очистка данных CRIA Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007
Очистка данных CRIA IAL-Aves Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007 статистика
Очистка данных GBIF демонстрационный интерфейс http: //www. secretariat. gbif. net/datatester/index. jsp Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007
Очистка данных GBIF демонстрационный интерфейс http: //www. secretariat. gbif. net/datatester/index. jsp Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007
Вопросы? Arthur Chapman CWR Training Course Tashkent, Uzbekistan, Nov 2007


