Archiwum kategorii: Bibliografia

Bibliometria — kilka uwag

Najdziwniejszy jest zawód urzędnika administracyjnego Instytutu matematycznego: nie wie, czym administruje!

Hugo Steinhaus

W pewnym sensie jestem ogromnym zwolennikiem bibliometrii, choć z drugiej strony, mogę powiedzieć, że używana jest w zły sposób, który w znacznej części niweczy jej zalety. Nie można bowiem narzędzia podającego informacje strategiczne stosować do bieżącej taktyki.

Ale urzędnicy, którzy nie rozumieją tego czym administrują, potrzebują łatwych (i w miarę „automatycznych”) narzędzi oceny naukowców i ich grup. Bibliometria pasuje jak znalazł. A jak już naukowcy wiedzą, za pomocą jakich narzędzi są oceniani — rozpoczynają optymalizację. Gdy głównym kryterium jest:

  • liczba publikacji — publikują ogromne ilości przyczynkarskich prac wszędzie tam, gdzie chcą przyjąć;
  • liczba cytowań — tworzą „spółdzielnie” ułatwiające publikowanie, przynależność do nich jest opłacona koniecznością cytowania innych członków spółdzielni;
  • indeks H wydaje się być niezłą miarą starającą się ocenić i liczbę publikacji i liczbę ich cytowań (indeks równy N oznacza, że uczony ma N publikacji cytowanych więcej niż N razy). Ale ma też bardzo wiele wad, które próbowano zniwelować wymyślając różne jego modyfikacje.

Hirsch, poważny fizyk (podlegający również różnym automatycznym ocenom), dla żartu wymyślił ten (indeks H) wskaźnik i „wyliczył” go dla kilku znanych uczonych (noblistów i członków innych szanownych gremiów). I się przyjęło.

Co gorsza(?) naukowcy dosyć szybko przywiązali się do różnych miar ich dorobku i bardzo negatywnie reagują, gdy okazuje się, że jakiś wskaźnik zamiast im rosnąć — maleje.

Z drugiej strony wszyscy zdajemy sobie sprawę, że jeżeli ten sam parametr mierzymy za pomocą różnych przyrządów pomiarowych możemy dostać różne wyniki. Czasami różnice są niewielkie, czasami są znaczące, ale w każdym przypadku nabieramy wątpliwości do jakości urządzeń pomiarowych. Czasami jednak wynik (pomiaru) powstaje w efekcie złożonej procedury pomiarowej i obliczeniowej. W takiej sytuacji cała metodologia, zestaw dostępnych danych, założenia — wszystko ma wpływ na wyniki. Jeżeli dostaje się wyniki powtarzalne — trudno metodę kwestionować.

  1. Politechnika Wrocławska jest uczelnią, która jako pierwsza w Polsce rozpoczęła zbieranie informacji na temat publikacji swoich pracowników. Są one gromadzone w bazie DONA. Oprócz tego podjęła poważny wysiłek aby informacje te przetwarzać dostarczając analizy zainteresowanym pracownikom i kierownictwu Politechniki Wrocławskiej. Uważam, że pracownicy tym zajmujący wykonują kawał bardzo dobrej i potrzebnej pracy.
  2. Science Citation Index (SCI) powstał w latach 60. zeszłęgo stulecia i stał się podstawą „sławy” ISI (Institute for Scientific Information w Filadelfii). Charakterystyczne tomy SCI były podstawową pozycją w każdej „czytelni czasopism bieżących” i bardzo ważnym narzędziem pozwalającym (w czasach przed-internetowych) stosunkowo łatwo śledzić „sznureczek” cytowań jakiejś publikacji w czasie. SCI był wówczas, (zwłaszcza gdy egzemplarze publikacji zdobywało się wysyłając na adres autora pocztówkę–prośbę o odbitki) niezastąpionym narzędziem. Losy ISI były bardzo burzliwe, zmieniał on swoich właścicieli ale podstawowy serwis Web of Science ma się bardzo dobrze. Na przykład Fińska Akademia Nauk przedstawia systematyczne (co dwa lata) oceny nauki fińskiej przygotowywane na podstawie danych WoS (wykorzystując bibliometrię do ocen strategicznych). 

    Tomy SCI w czytelni
    Tomy SCI w czytelni
  3. Nieco poźniejsza inicjatywa to różne próby wydawnictwa Elsevier do stworzenia wyszukiwarki prac naukowych (jak, na przykład Scirus), które przekształciły się w końcu w bazę Scopus. Podstawowa różnica, która wyróżnia serwis Scopus (i wszystkie z nim związane) to fakt, że Elsevier jest jednym z największych wydawców literatury naukowej i ma dostęp do wszystkich swoich publikacji. Jako jeden z pierwszych firma zadbała o stworzenie unikatowych identyfikatorów uczonych i podjęła działania, żeby łączyć ich z miejscem pracy.
  4. Mendeley — (działa od 2007 roku) aplikacja i serwis społecznościowy będące (od 2013 roku) własnością firmy Elsevier.
  5. Google Scholar (udostępniony w 2004 roku). Początkowo tylko wyszukiwarka, dziś również platforma informacyjna. Bardzo agresywnie przeszukuje udostępnione w Internecie pliki i łączy je z informacjami na stronach wydawnictw. Dzięki temu często udostępnia pełne teksty korzystając ze źródeł innych niż wydawców. Platforma informacyjna pozwala naukowcowi umieścić informacje o swoich pracach, a wyszukiwarka Google będzie „zliczała” automatycznie cytowania.
  6. Microsofy Academic (powstał jako Microsoft Academic Research w roku 2006 jako odpowiedź na powstanie Google Scholar). Dosyć kiepsko radzi sobie na rynku, był zamykany, otwierany i w końcu został reaktywowany jako Microsoft Academic i zintegrowany z z wyszukiwarką Bing. Posiada sporą bazę danych publikacji naukowych (jedynie tam znalazłem jakąś wzmiankę o wniosku patentowym, którego kiedyś byłem współautorem; patent nie został przyznany).
  7. Zotero — (działą od 2006 roku) aplikacja ułatwiająca gromadzenie metadanych i baz bibliograficznych. O ile pamiętam były jakieś plany udostępniania swoich baz bibliograficznych, ale nie do końca wiem jak to się skończyło.
  8. Research Gate — (działa od 2008 roku) medium społecznościowe dla naukowców. Udostępnia podstawowe informacje o publikacjach oraz, bardzo czesto, ich pełne teksty. Przy czym dostępność pełnych tekstów czasami jest ograniczona wyłącznie dla innych użytkowników serwisu.
  9. Academia.edu — (działa od 2008) komercyjne medium społecznościowe dla naukowców.

Wszystkie te firmy starają się stworzyć jakąś platformę wymiany informacji na temat publikacji. Modele biznesowe są różne, ale podstawą działania tych przedsięwzięć są gromadzone metadane i narzędzia do ich analizy. Jedną z podstawowych analiz jest zliczanie cytowań. Przyjrzyjmy się efektom pracy różnych serwisów. Do porównań wybrałem swoją współautorską pracę Optimum experimental design for a regression on a hypercube—generalization of Hoel’s result. Poniżej przedstawiam informacje o liczbie cytowań zaliczonych, przez różne serwisy:

  • Scopus (17)
  • WOS (17)
  • Microsoft Academic (19)
  • Google Scholar (23)
  • Dona (udostępnia publicznie jedynie cytowania po 2014 i tych jest tylko 2 (słownie dwa))

Nie jest tak, że wyniki różnią się drastycznie. Można powiedzieć, że praca została zacytowana 20 ± 3 razy. Nie wiemy, które z tych wyliczeń odrzucają autocytowania, nie wiemy (choć akurat tego to można czasami się dowiedzieć przy odrobinie chęci) czy 17 cytowań WOS to te same 17 cytowań ze skopusa.

Jak nie mamy pewności do liczby cytowań, to również indeks H (bożek wszystkich naukowców) będzie zaburzony: Według Google Scolara mój współczynnik za ostatnie pięć lat to 2 (a globalnie to 5). Według skopusa — jest on znacznie, znacznie niższy 🙁

Nie należy obrażać się na gorsze wyniki jakiegoś pomiaru, tylko cały czas pamiętać, że skoro oceniam kogoś za pomocą miarki skopusa to nie powinienem porównywać go z osobą ocenianą miarką Google Scholar. Wydaje się, że jest to elementarne założenie. Co niekoniecznie jest prawdą w różnego rodzaju wnioskach (na przykład o awans). Ale to już osobna historia.

Podsumowując zdaję sobie sprawę, że zestawienie, które przedstawiłem może być odbierane prze kogoś jako niesprawiedliwe. Ale proszę pamiętać, że skorzystałem z jednego narzędzia do oceny wszystkich. I wyniki są mniej-więcej porównywalne. Pierwsza część (podająca podstawowe informacja na temat naszych osiągnięć dotyczy okresu 2013–2018 (co jest napisane już w drugim ustępie), to jest nieco więcej niż pięć lat, ale zdajemy sobie sprawę, że rok 2018 ciągle jeszcze trwa). Cześć druga, dokonująca porównań z Wydziałem obejmuje okres dłuższy: 2010–2018 (co nie jest napisane, ale wynika z opisu osi wykresów).

Na stronach serwisu SciVal (dostęp może mieć, po zarejestrowaniu, każdy z sieci Politechniki Wrocławskiej) można się zapoznać z dostępna dokumentacją opisującą metodologię i znaczenie poszczególnych wskaźników. (Nie upubliczniam ich tutaj, bo nie mam pewności czy mogę to zrobić.)

Cicer cum caule czyli groch z kapustą

Podczas seminarium mówiłem o:

  1. Szablonie prezentacji. Informacje o nim znaleźć można w dziale Projekty.
  2. O studiach dualnych nie ma zbyt wielu informacji na stronach Politechniki Wrocławskiej.
  3. Ledwie parę słów poświęciłem koncepcji „laboratoriów wirtualnych”. Nasze doświadczenia znaleźć można w kilku publikacjach (z lat 2000–2005): [1], [2], [3], [4], [5].Natomiast warto zajrzeć na strony Center for System Design (CSD) gdzie znaleźć można jakieś informacje o laboratoriach wirtualnych, ale w kontekście, który nigdy nas zbytnio nie interesował, to znaczy symulacji różnego rodzaju eksperymentów. Nie jest to bez sensu. tu, na przykład Free vibration of cantilever beam. Ale większość stron jest niedostępna…
  4. Kolejny poruszony temat to były „notatniki” pozwalające na prowadzenie interaktywnych obliczeń z wykorzystaniem profesjonalnego oprogramowania (na przykład Mathematica czy profesjonalne biblioteki numeryczne dostępne w Pythonie albo obliczenia z użyciem języka analiz statystycznych R).Jeżeli ktoś zechce może zapoznać się z ideą wykorzystania takiego oprogramowania na przykładzie Jupytera. Zachęcałem studentów do korzystania z niego na zajęciach z Metod Numerycznych i tam odsyłam zainteresowanych.
  5. Parę uwag poświęciłem też przygotowywaniu bibliografii. Pracując w redakcji czasopisma e-Informatica Software Engineering Journal mam jak najgorsze doświadczenia. Z moich doświadczeń wynika, że informacje bibliograficzne przygotowywane są bardzo niestarannie.Cały problem polega na tym, że dzisiejsze metody oceny zaczynają się (i bardzo często kończą) na kilku bibliometrycznych wskaźnikach. Wydaje się, że warto walczyć o wysoką jakość bibliografii — być może przełoży się to kiedyś na oceny.Bardzo interesujący (choć zapewne reklamowy) artykuł pod tytułem „Śledzenie, wizualizacja oraz ocena dorobku naukowego z wykorzystaniem bazy Scopus” opisuje możliwości zastosowania serwisu do prowadzenia analiz dorobku.
  6. Jeżeli wziąć pod uwagę, że to fizyk wymyślił wskaźnik rządzący dziś nauką światową nie powinien dziwić inny artykuł Hierarchical organization of H. Eugene Stanley scientific collaboration community in weighted network representation napisany przez fizyków z Instytutu Fizyki Jądrowej w Krakowie. Omówienie po polsku przedstawia główne idee artykułu i pozwala obrazować „zależności” pomiędzy publikacjami i prezentowanymi tam ideami (co widać na rys. 1).

    PIC

    Rysunek 1: Grafy ilustrujące powiązania naukowe Paula Erdősa, Edwarda Wittena, Marcela Ausloosa i Harry’ego E. Stanleya. W sieci Wittena wyraźnie widać trzy podsieci odpowiadające konkretnym tematom. (Źródło: [6])


    Podobne, ale nieco amatorskie, zależności pomiędzy współautorami z naszej katedry prezentuje rysunek 2. Uzyskany on został automatycznie na podstawie analizy bazy danych BibTeXa.


    pict

    Rysunek 2: Graficzna prezentacja prac współlokatorskich prof. Marka Rybaczuka; wyraźnie widać podsieci różnych zainteresowań


  7. Ostatnim tematem była sztuczna inteligencja. Wszystkie wątpliwości związane ze sztuczną inteligencją najlepiej ilustruje komiks z serwisu xkcd (rys. 3).

    PIC

    Rysunek 3: Łatwo dosyć jest stworzyć sztuczną inteligencję, która coś naśladuje (powtarzajac)


    Oczywiście sprawa nie jest tak prosta jak się wydaje na pierwszy rzut oka, ale…

    W prezentacji wspomniałem o dwu przykładach działania sztucznej inteligencji pierwszy dotyczył inteligentnego skalowania fotografii [7]. Efekty nie są może „porażające”, ale widać, że algorytm „stara się”.

    Potencjalnie znacznie ciekawszy jest drugi przykład tworzenia realistycznych „fotografii” na podstawie opisu słownego [8]. Ale trzeba sobie zdawać, że tak na prawdę, jest to zadanie „odwrotne” do zadania klasyfikacji: zaleźć trzeba punkt w przestrzeni cech możliwie najbliższy prototypom o opisanych cechach.

    groch1

Error thrown

Call to a member function id() on array