Archiwa tagu: featured

Bibliometria — kilka uwag

Najdziwniejszy jest zawód urzędnika administracyjnego Instytutu matematycznego: nie wie, czym administruje!

Hugo Steinhaus

W pewnym sensie jestem ogromnym zwolennikiem bibliometrii, choć z drugiej strony, mogę powiedzieć, że używana jest w zły sposób, który w znacznej części niweczy jej zalety. Nie można bowiem narzędzia podającego informacje strategiczne stosować do bieżącej taktyki.

Ale urzędnicy, którzy nie rozumieją tego czym administrują, potrzebują łatwych (i w miarę „automatycznych”) narzędzi oceny naukowców i ich grup. Bibliometria pasuje jak znalazł. A jak już naukowcy wiedzą, za pomocą jakich narzędzi są oceniani — rozpoczynają optymalizację. Gdy głównym kryterium jest:

  • liczba publikacji — publikują ogromne ilości przyczynkarskich prac wszędzie tam, gdzie chcą przyjąć;
  • liczba cytowań — tworzą „spółdzielnie” ułatwiające publikowanie, przynależność do nich jest opłacona koniecznością cytowania innych członków spółdzielni;
  • indeks H wydaje się być niezłą miarą starającą się ocenić i liczbę publikacji i liczbę ich cytowań (indeks równy N oznacza, że uczony ma N publikacji cytowanych więcej niż N razy). Ale ma też bardzo wiele wad, które próbowano zniwelować wymyślając różne jego modyfikacje.

Hirsch, poważny fizyk (podlegający również różnym automatycznym ocenom), dla żartu wymyślił ten (indeks H) wskaźnik i „wyliczył” go dla kilku znanych uczonych (noblistów i członków innych szanownych gremiów). I się przyjęło.

Co gorsza(?) naukowcy dosyć szybko przywiązali się do różnych miar ich dorobku i bardzo negatywnie reagują, gdy okazuje się, że jakiś wskaźnik zamiast im rosnąć — maleje.

Z drugiej strony wszyscy zdajemy sobie sprawę, że jeżeli ten sam parametr mierzymy za pomocą różnych przyrządów pomiarowych możemy dostać różne wyniki. Czasami różnice są niewielkie, czasami są znaczące, ale w każdym przypadku nabieramy wątpliwości do jakości urządzeń pomiarowych. Czasami jednak wynik (pomiaru) powstaje w efekcie złożonej procedury pomiarowej i obliczeniowej. W takiej sytuacji cała metodologia, zestaw dostępnych danych, założenia — wszystko ma wpływ na wyniki. Jeżeli dostaje się wyniki powtarzalne — trudno metodę kwestionować.

  1. Politechnika Wrocławska jest uczelnią, która jako pierwsza w Polsce rozpoczęła zbieranie informacji na temat publikacji swoich pracowników. Są one gromadzone w bazie DONA. Oprócz tego podjęła poważny wysiłek aby informacje te przetwarzać dostarczając analizy zainteresowanym pracownikom i kierownictwu Politechniki Wrocławskiej. Uważam, że pracownicy tym zajmujący wykonują kawał bardzo dobrej i potrzebnej pracy.
  2. Science Citation Index (SCI) powstał w latach 60. zeszłęgo stulecia i stał się podstawą „sławy” ISI (Institute for Scientific Information w Filadelfii). Charakterystyczne tomy SCI były podstawową pozycją w każdej „czytelni czasopism bieżących” i bardzo ważnym narzędziem pozwalającym (w czasach przed-internetowych) stosunkowo łatwo śledzić „sznureczek” cytowań jakiejś publikacji w czasie. SCI był wówczas, (zwłaszcza gdy egzemplarze publikacji zdobywało się wysyłając na adres autora pocztówkę–prośbę o odbitki) niezastąpionym narzędziem. Losy ISI były bardzo burzliwe, zmieniał on swoich właścicieli ale podstawowy serwis Web of Science ma się bardzo dobrze. Na przykład Fińska Akademia Nauk przedstawia systematyczne (co dwa lata) oceny nauki fińskiej przygotowywane na podstawie danych WoS (wykorzystując bibliometrię do ocen strategicznych). 

    Tomy SCI w czytelni
    Tomy SCI w czytelni
  3. Nieco poźniejsza inicjatywa to różne próby wydawnictwa Elsevier do stworzenia wyszukiwarki prac naukowych (jak, na przykład Scirus), które przekształciły się w końcu w bazę Scopus. Podstawowa różnica, która wyróżnia serwis Scopus (i wszystkie z nim związane) to fakt, że Elsevier jest jednym z największych wydawców literatury naukowej i ma dostęp do wszystkich swoich publikacji. Jako jeden z pierwszych firma zadbała o stworzenie unikatowych identyfikatorów uczonych i podjęła działania, żeby łączyć ich z miejscem pracy.
  4. Mendeley — (działa od 2007 roku) aplikacja i serwis społecznościowy będące (od 2013 roku) własnością firmy Elsevier.
  5. Google Scholar (udostępniony w 2004 roku). Początkowo tylko wyszukiwarka, dziś również platforma informacyjna. Bardzo agresywnie przeszukuje udostępnione w Internecie pliki i łączy je z informacjami na stronach wydawnictw. Dzięki temu często udostępnia pełne teksty korzystając ze źródeł innych niż wydawców. Platforma informacyjna pozwala naukowcowi umieścić informacje o swoich pracach, a wyszukiwarka Google będzie „zliczała” automatycznie cytowania.
  6. Microsofy Academic (powstał jako Microsoft Academic Research w roku 2006 jako odpowiedź na powstanie Google Scholar). Dosyć kiepsko radzi sobie na rynku, był zamykany, otwierany i w końcu został reaktywowany jako Microsoft Academic i zintegrowany z z wyszukiwarką Bing. Posiada sporą bazę danych publikacji naukowych (jedynie tam znalazłem jakąś wzmiankę o wniosku patentowym, którego kiedyś byłem współautorem; patent nie został przyznany).
  7. Zotero — (działą od 2006 roku) aplikacja ułatwiająca gromadzenie metadanych i baz bibliograficznych. O ile pamiętam były jakieś plany udostępniania swoich baz bibliograficznych, ale nie do końca wiem jak to się skończyło.
  8. Research Gate — (działa od 2008 roku) medium społecznościowe dla naukowców. Udostępnia podstawowe informacje o publikacjach oraz, bardzo czesto, ich pełne teksty. Przy czym dostępność pełnych tekstów czasami jest ograniczona wyłącznie dla innych użytkowników serwisu.
  9. Academia.edu — (działa od 2008) komercyjne medium społecznościowe dla naukowców.

Wszystkie te firmy starają się stworzyć jakąś platformę wymiany informacji na temat publikacji. Modele biznesowe są różne, ale podstawą działania tych przedsięwzięć są gromadzone metadane i narzędzia do ich analizy. Jedną z podstawowych analiz jest zliczanie cytowań. Przyjrzyjmy się efektom pracy różnych serwisów. Do porównań wybrałem swoją współautorską pracę Optimum experimental design for a regression on a hypercube—generalization of Hoel’s result. Poniżej przedstawiam informacje o liczbie cytowań zaliczonych, przez różne serwisy:

  • Scopus (17)
  • WOS (17)
  • Microsoft Academic (19)
  • Google Scholar (23)
  • Dona (udostępnia publicznie jedynie cytowania po 2014 i tych jest tylko 2 (słownie dwa))

Nie jest tak, że wyniki różnią się drastycznie. Można powiedzieć, że praca została zacytowana 20 ± 3 razy. Nie wiemy, które z tych wyliczeń odrzucają autocytowania, nie wiemy (choć akurat tego to można czasami się dowiedzieć przy odrobinie chęci) czy 17 cytowań WOS to te same 17 cytowań ze skopusa.

Jak nie mamy pewności do liczby cytowań, to również indeks H (bożek wszystkich naukowców) będzie zaburzony: Według Google Scolara mój współczynnik za ostatnie pięć lat to 2 (a globalnie to 5). Według skopusa — jest on znacznie, znacznie niższy 🙁

Nie należy obrażać się na gorsze wyniki jakiegoś pomiaru, tylko cały czas pamiętać, że skoro oceniam kogoś za pomocą miarki skopusa to nie powinienem porównywać go z osobą ocenianą miarką Google Scholar. Wydaje się, że jest to elementarne założenie. Co niekoniecznie jest prawdą w różnego rodzaju wnioskach (na przykład o awans). Ale to już osobna historia.

Podsumowując zdaję sobie sprawę, że zestawienie, które przedstawiłem może być odbierane prze kogoś jako niesprawiedliwe. Ale proszę pamiętać, że skorzystałem z jednego narzędzia do oceny wszystkich. I wyniki są mniej-więcej porównywalne. Pierwsza część (podająca podstawowe informacja na temat naszych osiągnięć dotyczy okresu 2013–2018 (co jest napisane już w drugim ustępie), to jest nieco więcej niż pięć lat, ale zdajemy sobie sprawę, że rok 2018 ciągle jeszcze trwa). Cześć druga, dokonująca porównań z Wydziałem obejmuje okres dłuższy: 2010–2018 (co nie jest napisane, ale wynika z opisu osi wykresów).

Na stronach serwisu SciVal (dostęp może mieć, po zarejestrowaniu, każdy z sieci Politechniki Wrocławskiej) można się zapoznać z dostępna dokumentacją opisującą metodologię i znaczenie poszczególnych wskaźników. (Nie upubliczniam ich tutaj, bo nie mam pewności czy mogę to zrobić.)

pdf2pptx

Szukam, oczywiście, jakiejś prostej metody konwersji slajdów stworzonych w beamerze do formatu PowerPoint. To co znalazłem traktować należy bardziej jako żarcik, choć działa (i z formalnego punktu widzenia z pliku PDF tworzy piękną prezentację w formacie pptx.

Metoda, która została użyta może być zakwalifikowana jako metoda siłowa: każda strona prezentacji PDF konwertowana jest do grafiki bitmapowej, a następnie używana jako slajd. Skrypt pdf2pptx pakuje wszystko w XML, dodaje niezbędne pliki pomocnicze i kompresuje. Nie są potrzebne żadne wymyślne biblioteki…

Poniżej prosta prezentacja testowa utworzona w beamerze w formacie pdf i po przekształceniu do formatu pptx.
beamer-benchmark

Z markdown do pptx

Najnowsza wersja programu pandoc (do pobrania ze stron projektu) ma możliwość konwersji markdown do formatu pptx.

Teoretycznie (nie udało mi się tego jeszcze sprawdzić) można użyć dowolnego szablonu (w formacie .pptx lub .potx) podczas konwersji.

Poniżej efekty konwersji prostego pliku o zawartości

 

Poniżej efekty tych konwersji, to znaczy plik pdf utworzony „klasyczną” drogą (konwersja do LaTeXa i do PDF)

slajd

oraz przekonwertowany plik .pptx i prezentacja wyeksportowana do formatu PDF.

slajd_pptx