Пользователь
226,2
рейтинг
11 октября 2014 в 12:48

Разработка → Сколько научных статей в интернете?

Профессор Ли Джайлс (Lee Giles) из колледжа информационных технологий при университете штата Пенсильвания значительную часть карьеры посвятил разработке поисковых систем по научным статьям, чтобы у академического сообщества был удобный доступ к материалам.

Недавно профессор опубликовал первое в своём роде исследование, в котором оценивает количество доступных научных статей в интернете. Работа "The Number of Scholarly Documents on the Public Web" опубликована в майском номере журнала PLoS ONE и цитируется в Nature.

В работе учтены только англоязычные документы, с учётом перекрытия в двух крупнейших специализированных поисковиках: Google Scholar и Microsoft Academic Search. Под научными документами подразумеваются публикации в журналах и доклады с конференций, диссертации и дипломные работы, книги, технические отчёты и рабочие документы (предварительные версии научных статей).

Статистические методы показали, что через интернет доступно как минимум 114 млн научных документов на английском языке, из них через Google Scholar доступно около 100 млн. Как минимум 27 млн документов (24%) лежат в открытом доступе.



Авторы адаптировали в своей работе метод двойного охвата, который обычно используется в экологии для оценки размера популяций животных. Там он предполагает отлов некоторого количества животных, которых помечают и отпускают на волю. Затем осуществляется повторный отлов в том же районе. Учёные оценивают процент окольцованных животных во второй выборке — и делают примерную оценку общего размера популяции по простой формуле.

Исследование Джайлса имеет и практический смысл для него как разработчика. Ещё в 1997 году он с коллегами выпустил открытую поисковую систему CiteSeer по научным документам, преимущественно, из области информатики. При этом поисковик учитывал цитаты и ссылки в документах, чтобы построить индекс с учётом ранжирования. Считается, что это первая автоматическая система индексирования цитат, предшественник таких инструментов как Google Scholar и Microsoft Academic Search.

В 2008 году вышла новая версия CiteSeerX, в которой тематику расширили на физику, экономику, медицину и другие научные отрасли. Джайлс пытается оценить, какая инфраструктура нужна для индексации документов в каждой отрасли.



Джайлс подчёркивает тот факт, что 24% всех документов свободно доступны в Сети, в виде прямых ссылок на документы через Google Scholar (в информатике процент свободно доступных документов 50%). Профессор также отмечает, что документы в открытом доступе чаще цитируются и имеют больший вес.

Анатолий Ализар @alizar
карма
739,5
рейтинг 226,2
Пользователь
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Самое читаемое Разработка

Комментарии (53)

  • +2
    Сколько научных статей в интернете
    Много.

    Статистические методы показали, что через интернет доступно как минимум 114 млн
    А в конце статьи пишут
    roughly 114 million
    Так всё же, как минимум или в районе 114 млн? )
  • +4
    Примерно 113 млн 900 тысяч из них — профанация и никому не нужное захламление интернет-пространства, а также отъедание денег на свои идиотские никому ненужные антинаучные высеры.
    • –3
      исследования британских ученых туда же)
    • +5
      Надо просто анализировать количество статей в рецензируемых журналах, там петриковщины гораздо меньше.
      • 0
        Рецензируемых много. Какие вы имеете ввиду, ВАКовские? В ВАКовских точно такая же петриковщина, подавляющее большинство.
        • 0
          Нет, ВАКовские конечно я не имею ввиду, они если и рецензируемы — то номинально, т.к. знаю несколько человек, которые публиковались в них — никакого процесса рецензирования там нету.
    • +13
      Пожалуйста, поделитесь методологией своего исследования, в результате которого вы пришли к этому выводу.
      • –10
        Защищаю диссертацию, в общем, кручусь в среде «учёных». Да, учёные, а не «учёные» бывают. Но, навскидку, один на человек, эдак, пятьдесят (возможно, статистика чуть получше, но не намного).
        • +16
          То есть вы экстраполируете результаты небольшой выборки, сделанной в рамках одной группы, на всё сообщество? Нехорошо, батенька ;)
          • –11
            Выборки в пару крупных федеральных университетов достаточно для того, чтобы понять что творится в науке во всей стране в целом. Играться в статистику можно сколько угодно.
            • +7
              В двух универститетах на каком-то одном или нескольких направлениях такая ситуация, значит такая же ситуация во всей науке в России, значит 99% англоязычных(!!!) статей мусор. Правильно я проследил вашу логику?
        • +3
          Это как где… Мои оценки были бы точно противоположными, но я и не ожидаю что каждый научный сотрудник сопоставим с грандами науки. Другое дело, что во многих статья ценность полученных результатов не слишком высока, однако это не отменяет того что исследования проводятся качественно.
          • +7
            Точно так. Необходимо огромное количество качественного научного материала, полученного многими людьми, чтобы когда-нибудь кто-нибудь один совершил ценное открытие. Без этого никак.
            • –9
              Ценные открытия совершаются благодаря индуктивному скачку, а не благодаря чтению огромного количества качественного научного материала. Огромного — это сколько? Миллион статей? А их пишется именно миллионы. На одну и ту же тему десятки тысяч.
              • +5
                Всё тлен.
                Если человек не стал Фейнманом к тринадцати лет, то всё, его нельзя пускать в науку.
                А то ещё будет засорять вселенную своими дурацкими никому не нужными исследованиями.
                [/irony]
              • 0
                Простейший пример — многокомпонентные сплавы для высокотемпературной сверхпроводимости. Чтобы проверить, скажем, 5-компонентные составы из 100 разных химических элементов, надо изучить 10 миллиардов соединений. Учитывая зависимость свойств сплава от концентрации элементов (часто очень чувствительную, как полупроводники или сталь), это число возрастает еще на порядки. Стоит вспомнить историю открытия высокотемпературной сверхпроводимости. Кто-то из наших химиков подробно изучал эти керамики, но не догадался измерить зависимость сопротивления от температуры. А через много лет кто-то другой догадался. Это к вопросу о качестве исследований.
          • –12
            Мои оценки опираются на крупные государственные университеты типа Финансового Университета при Правительстве РФ.
            • +9
              А какое отношение он имеет к науке?
              • –11
                Самое прямое имеет. Не вижу смысла доказывать.
                • +4
                  Ну, сравним:

                  Вышая Школа Экономики
                  МГУ
                  Natural History Museum, London
                  Imperial College
                  Harvard University
                  Финансовый Университет при правительстве РФ

                  Повторяю вопрос: какое отношение заведение с такими публикациями имеет к науке?
                  • –4
                    С какими с такими? В независимости от ответа — отношение к науке имеет самое прямое: в ней защищаются диссертации, как кандидатские, так и докторские.
                    • +3
                      Практически несуществующими. Заводим в Google Scholar и видим: разница между ФУ и ВШЭ — порядок (не говоря уже о приличных исследовательских институтах). Само по себе наличие советов по защите диссертаций не является показателем качества диссертаций, а тем более — научного продукта. До тех пор пока Вы этого не поймете Вы будете путать науку с околонаучной политикой
                      • 0
                        Я это прекрасно понимаю. Задумано было так, что любой университет федерального значения должен иметь самое прямое отношение к науке. Я утверждал именно это. А вы полезли в дебри о том, что наука, а что политика. Ещё раз говорю, любой федеральный университет имеет самое непосредственное отношение к науке, а вот порочит ли он честь учёных или вносит хороший вклад — другой вопрос. Вы это понимаете?
                        • 0
                          Не надо уходить от вопроса, который звучал не «какое отношение заведение должно было бы иметь...» а «какое отношение оно имеет...» Благие пожелания отдельных личностей или организаций рассматриваться в данном случае не должны. Существует только один объективный критерий оценки научной организации: количество и качество публикаций (в широком смысле). Организации, работники которых не публикуются не оказывают никакого влияния на научный процесс. До тех пор пока ставка преподавателя в ВУЗе будет включать 18 контактных часов в неделю у него не останется времени на науку. При этом, я уверен, что в ФУ есть достаточное количество хороших преподавателей и потенциально продуктивных исследователей. Результата только нет.

                          P.S. Университет к чести учёного отношения не имеет. Опорочить честь учёный может только сам, опубликовав ненаучную или паранаучную дребедень.
                • +2
                  Ну, сравним:
                  Google Scholar:

                  Вышая Школа Экономики: 24,400 results
                  МГУ: 74,700 results
                  Natural History Museum, London 284,000 results
            • +3
              Экономика — это не наука. Это я вам как физик говорю.
              • 0
                Ну так можно дойти до того, что нет науки кроме математики.
                Сюда стоит вставить комикс xkcd про это.
                Наука иногда может быть даже без расчетов и формул.
                В экономике много мути из-за политически-социального аспекта.
                И в физику в псевдофизические журналы ведь проползают нанофильтры с божим духом, бывает.
                • 0
                  Ну так можно дойти до того, что нет науки кроме математики.

                  Экспериментальная математика? Не смешите.
                  • –1
                    Всё-таки вставлю комикс.

                    Purity
            • 0
              Потому что в нормальные вузы надо идти. Их немного, да.
        • +1
          Полностью вас поддерживаю, защищал диссертацию 7 лет назад, ощущения аналогичные. Все делается «для галочки», положено писать на определенных научных должностях, вот и пишут. А иначе, учетные показатели снизятся, зарплаты покоцают или вообще с должности попрут. Как Перельмана из Стеклова выперли за отсутствие должного количества опубликованных статей. У них еще и кланы, «свои» журналы, чужие там не публикуются. То что вас тут так заминусили за критику, показатель того сколько здесь всей этой «научной» публики, генерирующей информационный мусор.
          • –2
            Самое страшное, что людям, которые всем этим занимаются не стыдно ни разу! Мне и таким как мне стыдно за них.
            • +3
              Они прагматики, а не какие-то там ботаны типа Перельмана. Им стыдно только когда их жизнь плохо устроена, исключительно в бытовом смысле. А когда пишется и публикуется никому не нужная пустая жвачка, не стыдно.
          • +9
            Минусуют-то за другое. Минусуют за предположение, что не-прорывная работа не нужна и за выдачу личного мнения за серьезную статистику.

            Полным полно информационного шума в науке. В России, в Китае, в США, полным полно.
            Полным полно левых журналов.
            В конце-то концов, за сто лет произошла колоссальная инфляция научной системы.
            Сейчас все жулики заказывают диссертации ради красивой приставки к имени.
            Все идиоты идут в заборостроительные институты ради гордого диплома.

            При этом наука есть, и наука эта есть маленький тык в край круга знаний человечества.
            В робототехнике годной статьёй будет анализ результатов применения какой-то математической модели.
            В психологии годной статьёй будет анализ кейса какого-то пациента.
            В химии годной статьёй будет анализ какой-то редкой реакции.
            В лингвистике годной статьёй будет анализ разницы в произношении в какой-то деревне в сто жителей.

            И вполне возможно, что из этих статей не получится антигравитационных досок и космических кораблей, но эти статьи нужны не меньше, чем самые-самые статьи в Science и Nature.
            • –3
              Не прорывная работа нужна. Где я говорил обратное? Как можно было расценить то, что я говорил за серьёзную статистику, я хоть какие-то цифры приводил? Разумеется, это было ИМХО. Кому нравится, тот может считать что угодно про то, что на западе гораздо больше хороших статей и всякое такое. Я же не против.
              • +2
                «благодаря индуктивному скачку, а не благодаря чтению огромного количества качественного научного материала»
                Да и уж очень категоричным выглядят ответы на комментарии к первому комментарию про профанацию.
                А разница всё-таки есть.
                Доктор медицины с личной практикой в Цюрихе и доктор медицины с личной практикой в Мумбаи звучит одинаково, только первый скорее всего будет доктором с признанным статусом, а второй скорее всего шарлатаном с левой бодягой в шприце.
                • 0
                  Да, благодаря индуктивному скачку. Это же не значит, что качественный непрорывной материал не нужен. Про Мумбаи я не понял.
                  • 0
                    Это к тому, что в разных местах одна вещь может называться одинаково, но быть совершенно разной.
                    В разных лабораториях есть разные условия, и в разных институтах есть разная наука.
                    В Центральном НИИ Робототехники и Технической Кибернетики студенты пятых курсов серьезно играются с роботами, которые на руках у старших школьников в Японии, а в роли исследований идут повторы сделанных десять лет назад работ.
                    И шансы того, что по запросу «робототехника» в журналах получится увидеть неинтересную муть гораздо больше чем по запросу «robotics».
            • 0
              Годной статьей в любой области будет статья, результаты которой полезны для работающих в этой области. К сожалению, такая полезность пишущих научные статьи в РФ мало кого заботит. Здесь другие мотивы написания статей.
              • 0
                Главная трагедия российской науки в том, что «культура старших научных сотрудников» сформировала связь «есть диплом — есть статус». Политики хотят быть докторами, менеджеры хотят быть магистрами. Но наука это не пенис канина. А что делать? Упрощать себе жизнь создавая видимость науки. Разгребать приходится это активистам вроде диссернетовцев. А в то время как наука превращается в симулякр, на нормальные исследования падают сопутствующие камни позора, созданные вот этим сословием купивших, пусть даже не в прямом смысле, диссертации и дипломы.
                И это если смотреть на советскую ситуацию, но кусочки подобного есть везде. Появляются бесконечные институты всякого креационизма и гомеопатии, ведь главное звучать по научному и носить халат, тогда ж люди поверят. А у реальных учёных либо баттхёрт, либо фейспалм, либо вообще непонимание, что происходит, в то время как слово институт и слово халат уже обесценились.
                В массе наука обесценилась, но предположение, что большинство статей заведомо мусор, оно также неверно, как предположение отказывающихся от прививок, что все врачи злые хотят нас убить своими исследованиями и вообще пересадят в нас гены рыбы и мы отрастим дьявольские жабры.
                • –4
                  Пока что, большинство статей — заведомо мусор. Вы всё правильно говорите и хотите, чтобы не было такого. Но пока что это так и за границей в том числе.
                • 0
                  Помимо «мусора» есть еще и проблема «наезженных дорог». На своем опыте — лет 6 долбил один известный рецензируемый журнал статьей со своей методикой, получал отлупы. В конце концов нашел книжицу 197х — какого-то года, автором которой являлся главный редактор журнала из того же «куста», взял оттуда пример, который он тогда рассматривал, и рассмотрел его по своей методике. Результат — 3 публикации за полтора года. Это не мусор, это рельсы. Шаг вправо, шаг влево побег, прыжок на месте провокация. Но статьи все грамотные, да.
                  • 0
                    Печаль научной системы, также как и с демократией — работает неидеально, но лучшего не придумали.
                    • +1
                      Демократия разная бывает. Конституция СССР 1936 года — образец демократии. Даже судей выбирали тайным голосованием.
          • 0
            Из Стеклова Перельмана, как вы говорите, выперли, а вот в американские университеты наоборот пригласили читать лекции по своему доказательству. Сдаётся мне там ситуация несколько иная чем у нас, а речь здесь идёт как раз об англоязычных статьях.
            • 0
              Отечественных авторов, пишущих по английски, много. Сейчас в самых разных отраслях науки проводится масса «международных» конференций, многие из которых платные, где можно удачно отписаться чтобы поднять себе научный рейтинг внутри РФ.
          • +1
            Весьма прискорбно что вам и EngineerSpockу довелось заниматься научной деятельностью в таких коллективах. Окажись я в такой ситуации, наверное, рискнул бы и попытался устроиться туда где на первом плане наука а не галочки. Возможно, даже если бы это потребовало переезда в другую страну (кстати, когда-то я так и сделал, но по другим причинам). Но тут уж лучший советчик бы себе сам.
  • +1
    теперь осталось как то понять, сколько из них научных…
  • +1
    Это и пугает меня в современной науке. А я сам стал отдельной каплей в её море.
    Гигантские объёмы материала в каждой области, которым ни один самый лучший эксперт не сумеет овладеть.
    «Вавилонская библиотека» Борхеса.
  • +1
    В тему о научности/ненаучности статей. Сама «научная система» заставляет писать статьи, даже если на данный момент материала недостаточно или он слаб. Просто потому что основной отчетный материал по грантам — это статьи и места где они опубликованы (престижные журналы и.т.д.). ) Не опубликуешься провалишь отчет дальше финансирования не будет.
    • +2
      Справедливости ради, слабую статью в приличном реферируемом журнале вряд ли примут.
      • 0
        «Приличный реферируемый» — понятие расплывчатое :) ВАКовские журналы задумывались как «приличные реферируемые» тоже.
        • 0
          Нет никакой расплывчатости. Есть импакт-фактор и производный от него рейтинг в категории. И чем выше импакт журнала, тем «зубастее» рецензенты, проверено на собственном опыте. Хотя бывают и исключения в виде дотошных рецензентов в журнале с импактом 1.2. А вот обратного пока не встречал, и, надеюсь, не встречу.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.