Анализ 19,9 млн публикаций базы данных PubMed/MEDLINE методами искусственного интеллекта: подходы к обобщению накопленных данных и феномен “fake news”
https://doi.org/10.17749/2070-4909/farmakoekonomika.2020.021
Аннотация
Введение. Англоязычные базы данных PubMed/MEDLINE и Embase являются ценными информационными ресурсами для нахождения оригинальных публикаций по фундаментальной и клинической медицине. В настоящее время не существует систем искусственного интеллекта, позволяющих оценивать качество этих публикаций.
Цель. Разработка и апробация системы для проведения сентимент-анализа (то есть анализа эмоциональной модальности) публикаций по биомедицине.
Материалы и методы. Сформулирована методика анализа «больших данных» биомедицинских публикаций, основанная на топологической теории сентимент-анализа медицинских текстов. Разработаны алгоритмы, позволяющие с 90%-й точностью классифицировать тексты по 16 классам сентиментов (манипулятивные обороты речи, исследования без положительных результатов, пропаганда, подделка результатов, негативное личное отношение, агрессивность текста, негативный эмоциональный фон и др.). На основе алгоритмов предложена балльная шкала оценки сентимент-качества исследований (β-балл).
Результаты. Проведен анализ текстов абстрактов 19,9 млн публикаций, зарегистрированных в PubMed/MEDLINE за последние 50 лет (1970–2019). Показано, что публикации с низким сентимент-качеством (значение β-балла текста меньше нуля, что соответствует преобладанию манипулятивных и негативных сентиментов в тексте) составляют всего 18,5% (3,68 из 19,9 млн). Наибольшими значениями β-балла характеризовались публикации по спортивной медицине, системной биологии, нутрициологии, по использованию методов прикладной математики и интеллектуального анализа данных в медицине. Рубрикация всего массива публикаций по 27840 рубрикам (MESH-система PubMed/MEDLINE) указала на повышение β-балла по годам (то есть на положительную динамику сентимент-качества текстов публикаций) для 27090 исследованных рубрик. Наиболее интенсивная положительная динамика найдена для исследований по генетике, физиологии, фармакологии и геронтологии. Выделены 249 рубрик с резко отрицательной динамикой сентимент-качества и с выраженным нарастанием манипулятивных сентиментов, характерных для «желтой» англоязычной прессы. Приведены отдельные оценки международных экспертов, которые подтверждают выявленные закономерности.
Заключение. Разработанная система искусственного интеллекта позволяет проводить эффективную оценку сентимент-качества биомедицинских исследований, отфильтровывая потенциально неадекватные публикации, публикуемые под маской «доказательных».
Ключевые слова
Об авторах
И. Ю. ТоршинРоссия
к.ф-м.н., к.х.н., с.н.с., Институт фармакоинформатики
Scopus Author ID: 7003300274; Author ID: 54104;
WoS ResearcherID: C-7683-2018; РИНЦ SPIN-код: 1375-1114
ул. Вавилова, д. 44, корп. 2, Москва 119333, Россия
Ленинские горы, д. 1, Москва 119991, Россия
О. А. Громова
Россия
д.м.н., профессор, в.н.с., научный руководитель Института фармакоинформатики; в.н.с.
Author ID: 94901; Scopus Author ID: 7003589812;
WoS ResearcherID: J-4946-2017. РИНЦ SPIN-код: 6317-9833
ул. Вавилова, д. 44, корп. 2, Москва 119333, Россия
Ленинские горы, д. 1, Москва 119991, Россия
Л. В. Стаховская
Россия
д.м.н., профессор, директор
ул. Островитянова, д. 1, стр. 10, Москва 117342, Россия
Н. П. Ванчакова
Россия
д.м.н., профессор, психиатр
пр. Культуры, д. 4, Санкт-Петербург 194291, Россия
А. Н. Галустян
Россия
к.м.н., доцент, зав. кафедрой фармакологии с курсом клинической фармакологии и фармакоэкономики
ул. Литовская, д. 2, Санкт-Петербург 194100, Россия
Ж. Д. Кобалава
Россия
д.м.н., профессор, заведующая кафедрой внутренних болезней с курсом кардиологии и функциональной диагностики; заведующая кафедрой внутренних болезней, кардиологии и клинической фармакологии ФПК МР МИ ФГАОУ РУДН
ул. Миклухо-Маклая, д. 10/3, Москва 117198, Россия
Т. Р. Гришина
Россия
д.м.н., проф., зав. кафедрой фармакологии
Aurhor ID: 113019
Шереметевский проспект, д. 8, г. Иваново 153012, Россия
А. Н. Громов
Россия
инженер-исследователь
AuthorID: 15082; Scopus Author ID: 7102053964;
WoS ResearcherID: C-7476-2018; РИНЦ SPIN-код: 8034-7910
ул. Вавилова, д. 44, корп. 2, Москва 119333, Россия
И. А. Иловайская
Россия
врач-эндокринолог высшей категории, д.м.н., доцент, старший научный сотрудник отделения терапевтической эндокринологии
ResearcherID: I-1159-2014; Scopus Author ID: 6506067338
ул. Щепкина, д. 61/2, Москва 129110, Россия
В. М. Коденцова
Россия
д.б.н., профессор, г.н.с., лаборатория витаминов и микроэлементов
Устьинский проезд, д. 2/14, Москва 109240, Россия
А. Г. Калачева
Россия
к.м.н., доцент кафедры фармакологии
Шереметевский проспект, д. 8, г. Иваново 153012, Россия
О. А. Лиманова
Россия
к.м.н., доцент кафедры фармакологии
Шереметевский проспект, д. 8, г. Иваново 153012, Россия
В. А. Максимов
Россия
д.м.н., профессор кафедры диетологии и нутрициологии, гастроэнтеролог
Баррикадная ул., д. 2/1, стр. 1, Москва 125993, Россия
С. И. Малявская
Россия
д.м.н., профессор, проректор по научной работе
eLIBRARY ID: 6257-4400
Троицкий проспект, д. 51, г. Архангельск 163000, Россия
Е. В. Мозговая
Россия
д.м.н., доцент, руководитель акушерского отдела с перинатологией; профессор кафедры акушерства, гинекологии и репродуктологии медицинского факультета
WoS ResearcherID: L-1432-2017; Author ID Scopus: 24822403200; Author ID: 386830
Менделеевская линия, д. 3, Санкт-Петербург 199034,Россия
Н. И. Тапильская
Россия
д.м.н., профессор, ведущий научный сотрудник отделения вспомогательных репродуктивных технологий
Author ID Scopus: 23013489000; WoS ResearcherID: A-7504-2016;
ID map of science: 00052162; РИНЦ SPIN-код: 3605-0413
ул. Литовская, д. 2, Санкт-Петербург 194100, Россия
Менделеевская линия, д. 3, Санкт-Петербург 199034,Россия
К. В. Рудаков
Россия
акад. РАН, зам. директора, зав. кафедрой интеллектуальные системы МФТИ
Scopus Author ID: 6603540895
ул. Вавилова, д. 44, корп. 2, Москва 119333, Россия
В. А. Семенов
Россия
д.м.н., профессор
ул. Ворошилова, д. 22а, г. Кемерово 650056, Россия
Список литературы
1. Canese K., Weis S. PubMed: The Bibliographic Database. 2002 Oct 9 [Updated 2013 Mar 20]. In: The NCBI Handbook. 2nd edition. Bethesda (MD): National Center for Biotechnology Information (US); [Электронный ресурс] URL: https://www.ncbi.nlm.nih.gov/books/NBK153385/. Дата обращения: 12.12.2019.
2. Li L., Smith H. E., Atun R., Tudor Car L. Search strategies to identify observational studies in MEDLINE and Embase. Cochrane Database Syst Rev. 2019; MR000041. DOI: https://dx.doi.org/10.1002/14651858.MR000041.pub2.
3. Громова О. А., Торшин И. Ю. Витамин D – смена парадигмы. М. 2017; 750 с.
4. Громова О.А., Торшин И.Ю. Микронутриенты ирепродуктивное здоровье. Руководство. М. 2019; 672 c.
5. Stewart Chaplin. The Stained Glass Political Platform. The Century Magazine. USA. 1900.
6. Summers E. Weasel Words: 200 Words You Shouldn’t Trust: 200 Words You Can’t Trust. Chambers (Ed.), Slang & Idiom Dictionaries. 2009; 208 p.
7. Watson D. Watson’s Dictionary of Weasel Words, Contemporary Cliches, Cant and Management Jargon. Knopf, 1st Ed. 2004; 357 p.
8. Torshin I. Y., Rudakov K. V. Combinatorial analysis of the solvability properties of the problems of recognition and completeness of algorithmic models. Part 1: factorization approach. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2017; 27 (1): 16–28.
9. Torshin I. Yu., Rudakov K. V. Combinatorial analysis of the solvability properties of the problems of recognition and completeness of algorithmic models. Part 2: metric approach within the framework of the theory of classification of feature values. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2017; 27 (2): 184–199.
10. Torshin I. Y. Optimal dictionaries of the final information on the basis of the solvability criterion and their applications in bioinformatics. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2013; 23 (2): 319–327.
11. Torshin I. Yu., Rudakov K. V. On the theoretical basis of the metric analysis of poorly formalized problems of recognition and classification. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2015; 25 (4): 577–587.
12. Torshin I.Y., Rudakov K.V. On metric spaces arising during formalization of problems of recognition and classification. Part 1: properties of compactness. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2016; 26 (2): 274.
13. Torshin I. Yu., Rudakov K. V. On metric spaces arising during formalization of problems of recognition and classification. Part 2: density properties. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2016; 26 (3): 483–496.
14. Torshin I. Y., Rudakov K. V. On the application of the combinatorial theory of solvability to the analysis of chemographs. part 1: fundamentals of modern chemical bonding theory and the concept of the chemograph. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2014; 24 (1): 11–23.
15. Torshin I. Y., Rudakov K. V. On the application of the combinatorial theory of solvability to the analysis of chemographs. Part 2: local completeness of invariants of chemographs in view of the combinatorial theory of solvability. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2014; 24 (2): 196–208.
16. Torshin I. Yu., Rudakov K. V. On the Procedures of Generation of Numerical Features Over Partitions of Sets of Objects in the Problem of Predicting Numerical Target Variables. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2019; 29 (4): 654–667. DOI: https://dx.doi.org/10.1134/S1054661819040175.
17. Чернышев В. М. Меч Обоюдоострый. Конспект по Сектоведению. М. 2011; 138 с.
18. Дворкин А. Л. Сектоведение: Тоталитарные секты. Опыт систематического исследования. 3-е изд., перераб. и доп. Н. Новгород. 2014; 816 с.
19. Okter A. Mastermind: The Truth of the British Deep State. Arashtirma Publishing. 2017; 698 pp.
20. Котеров А. Н. Критерии причинности в медикобиологических дисциплинах: история, сущность и радиационный аспект. Сообщение 1. постановка проблемы, понятие о причинах и причинности, ложные ассоциации. Радиационная биология, радиоэкология. 2019; 59 (1): 5–36. DOI: https://dx.doi.org/10.1134/S0869803119010065.
21. Поппер К.Р. Предположения и опровержения: рост научного знания. М. 2004; 638 с.
22. Громова О.А., Торшин И.Ю., Тетруашвили Н.К., Тапильская Н.И. Систематический анализ эффектов молибдена: здоровье беременной и плода. Вопросы гинекологии, акушерства и перинатологии. 2019; 18 (4): 83–94. DOI: https://dx.doi.org/10.20953/1726-1678-2019-4-83-94.
23. Громова О.А., Торшин И.Ю., Тетруашвили Н.К., Галустян А.Н., Курицына Н.А. О перспективах использования комбинаций фолиевой кислоты и активных фолатов для нутрициальной поддержки беременности. Акушерство и гинекология. 2019; 4: 87–94. DOI: https://dx.doi.org/10.18565/aig.2019.4.87-94.
24. Торшин И. Ю., Лила А. М., Громова О. А., Наумов А. В., Громов А. Н. Об антикоагулянтных и антиагрегантных свойствах молекулы глюкозамина сульфата. Современная ревматология. 2019; 13 (3): 135–141. DOI: https://dx.doi.org/10/14412/1996-7012-2019-3-135-141.
25. Громова О. А., Торшин И. Ю., Максимов В. А., Громов А. Н., Рудаков К. В. Систематический анализ исследований лактитола. Экспериментальная и клиническая гастроэнтерология. 2019; (2): 131–142. DOI: https://doi.org/10.31146/1682-8658-ecg-162-2-131-142.
26. Арнольд В., Ильяшенко Ю., Аносов Д. и др. Динамические системы – 1. Итоги науки и техн. Сер. Соврем. пробл. мат. Фундам. Направления. М.: ВИНИТИ. 260 с.
27. Левенштейн В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов. Доклады Академий Наук СССР. 19654 163 (4): 845–848.
28. Ioannidis J. P.A. Hijacked evidence-based medicine: stay the course and throw the pirates overboard. J Clin Epidemiol. 2017 Apr; 84: 11–13. DOI: https://dx.doi.org/10.1016/j.jclinepi.2017.02.001.
29. Ioannidis J. P. Evidence-based medicine has been hijacked: a report to David Sackett. J Clin Epidemiol. 2016 May; 73: 82–6. DOI: https://dx.doi.org/10.1016/j.jclinepi.2016.02.012. PMID: 26934549.
30. Møller M. H., Ioannidis J. P.A., Darmon M. Are systematic reviews and meta-analyses still useful research? We are not sure. Intensive Care Med. 2018 Apr; 44 (4): 518–520. DOI: https://dx.doi.org/10.1007/s00134-017-5039-y.
31. Cochrane is a registered trademark in Australia, Canada, the European Community and the USA. 2017-09-19. [Электронный ресурс] URL: http:// trademarks.justia.com/791/85/cochrane-79185910.html. Дата обращения: 12.12.2019.
32. Торшин И.Ю., Громова О.А., Кобалава Ж.Д. О репрессиях ω-3 полиненасыщенных жирных кислот адептами доказательной медицины. ФАРМАКОЭКОНОМИКА. Современная Фармакоэкономика и Фармакоэпидемиология. 2019; 12 (2): 91–114. DOI: https://doi.org/10.17749/2070-4909.2019.12.2.91-114.
33. Hannemann A., Wallaschofski H., Nauck M., Marschall P., Flessa S., Grabe H. J., Schmidt C. O., Baumeister S. E. Vitamin D and health care costs: Results from two independent population-based cohort studies. Clin Nutr. 2018 Dec; 37 (6 Pt A): 2149–2155. DOI: https://dx.doi.org/10.1016/j.clnu.2017.10.014.
34. Механик А. Г. Искусственный интеллект на страже здоровья. Беседа вторая с О. А. Громовой и И. Ю. Торшиным. Стимул: Журнал об инновациях в России. 30 Октября 2019. [Электронный ресурс] URL: https://stimul.online/articles/science-and-technology/iskusstvennyy-intellekt-na-strazhe-zdorovya-beseda-vtoraya/. Дата обращения: 12.12.2019.
35. Блинов Д. В., Акарачкова Е. С., Орлова А. С., Крюков Е. В., Корабельников Д. И. Новая концепция разработки клинических рекомендаций в России. ФАРМАКОЭКОНОМИКА. Современная Фармакоэкономика и Фармакоэпидемиология. 2019; 12 (2): 125–144. DOI: https://doi.org/10.17749/2070-4909.2019.12.2.125-144.
36. Журавлева Н.И., Шубина Л.С., Сухоруких О.А. Обзор методик оценки достоверности научных доказательств и убедительности рекомендаций, применяемых при разработке клинических рекомендаций в российской федерации. ФАРМАКОЭКОНОМИКА. Современная Фармакоэкономика и Фармакоэпидемиология. 2019; 12 (1): 34–41 DOI: https://doi.org/10.17749/2070-4909.2019.12.1.34-41.
37. Хачатрян Г. Р., Омельяновский В. В., Мельникова Л. С., Ратушняк С. С. Международный опыт организации и финансового обеспечения агентств по оценке технологий здравоохранения. ФАРМАКОЭКОНОМИКА. Современная Фармакоэкономика и Фармакоэпидемиология. 2019. Т. 12. № 2. С. 146-154. DOI: https://doi.org/10.17749/2070-4909.2019.12.2.146-154.
38. Лазарева М. Л., Тюрина И. В. Финансовая статистическая отчетность медицинских организаций: существующие недостатки и направления оптимизации. ФАРМАКОЭКОНОМИКА. Современная Фармакоэкономика и Фармакоэпидемиология. 2018; 11 (4): 61–66 DOI: https://doi.org/10.17749/2070-4909.2018.11.4.061-066.
39. Омельяновский В. В., Федяева В. К., Мусина Н. З. Концепция многокритериального анализа принятия решений в текущей системе оценки технологий в здравоохранении России. ФАРМАКОЭКОНОМИКА. Современная Фармакоэкономика и Фармакоэпидемиология. 2018; 11 (3): 3–7 DOI: https://doi.org/10.17749/2070-4909.2018.11.3-003-007.
40. Хрусталев М. Б., Максимова А. А. Эффективный поиск научных разработок с инновационным потенциалом в медицине. ФАРМАКОЭКОНОМИКА. Современная Фармакоэкономика и Фармакоэпидемиология. 2019; 12 (1): 27–33 DOI: https://doi.org/10.17749/2070-4909.2019.12.1.27-33.
41. Мусина Н.З., Федяева В.К., Омельяновский В.В., Хачатрян Г.Р., Герасимова К.В., Лемешко В.А., Кончиц С.П. Обзор существующих зарубежных подходов к определению и оценке инновационности лекарственных препаратов. ФАРМАКОЭКОНОМИКА. Современная Фармакоэкономика и Фармакоэпидемиология. 2017; 10 (3): 66–74 DOI: https://doi.org/10.17749/2070-4909.2017.10.3.066-074
Рецензия
Для цитирования:
Торшин И.Ю., Громова О.А., Стаховская Л.В., Ванчакова Н.П., Галустян А.Н., Кобалава Ж.Д., Гришина Т.Р., Громов А.Н., Иловайская И.А., Коденцова В.М., Калачева А.Г., Лиманова О.А., Максимов В.А., Малявская С.И., Мозговая Е.В., Тапильская Н.И., Рудаков К.В., Семенов В.А. Анализ 19,9 млн публикаций базы данных PubMed/MEDLINE методами искусственного интеллекта: подходы к обобщению накопленных данных и феномен “fake news”. ФАРМАКОЭКОНОМИКА. Современная фармакоэкономика и фармакоэпидемиология. 2020;13(2):146-163. https://doi.org/10.17749/2070-4909/farmakoekonomika.2020.021
For citation:
Torshin I.Yu., Gromova O.A., Stakhovskaya L.V., Vanchakova N.P., Galustyan A.N., Kobalava Zh.D., Grishina T.R., Gromov A.N., Ilovaiskaya I.A., Kodentsova V.M., Kalacheva A.G., Limanova O.A., Maksimov V.A., Malyavskaya S.I., Mozgovaya E.V., Tapilskaya N.I., Rudakov K.V., Semenov V.A. Analysis of 19.9 million publications from the PubMed/MEDLINE database using artificial intelligence methods: approaches to the generalizations of accumulated data and the phenomenon of “fake news. FARMAKOEKONOMIKA. Modern Pharmacoeconomics and Pharmacoepidemiology. 2020;13(2):146-163. (In Russ.) https://doi.org/10.17749/2070-4909/farmakoekonomika.2020.021

Контент доступен под лицензией Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.