Моделирование свойств химических соединений с использованием искусственных нейронных сетей и фрагментных дескрипторов тема автореферата и диссертации по химии, 02.00.17 ВАК РФ

Защита состоится 18 марта 2010 г. в 15 часов на заседании диссертационного совета Д 501.001.50 по химическим и физико-математическим наукам при Московском государственном университете имени М.В.Ломоносова по адресу: 119991, г. Москва, Ленинские горы, МГУ имени М.ВЛомоносова, д. 1, стр. 3, Химический факультет, ауд. 446.

С диссертацией можно ознакомиться в библиотеке Химического факультета Московского государственного университета им. М.В.Ломоносова

Автореферат разослан «11» февраля 2010 г.

доктор физико-математических наук Кумсков Михаил Иванович

доктор химических наук, профессор Пивина Татьяна Степановна

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Современный этап развития нашей цивилизации характеризуется, прежде всего, беспрецедентным ростом мощности и распространенности компьютерной техники, и, вслед за этим, проникновением информатики во все сферы человеческой деятельности. Роботы, всевозможные устройства и компьютерные программы, оснащенные искусственным интеллектом, который уже в ближайшее время превзойдет по своим возможностям человеческий, начинают играть доминирующую роль не только в быту и промышленном производстве, но и в научных исследованиях.

Процессы информатизации быстро проникают я в химию. Этому особенно способствует то, что на протяжении многих лет химия развивалась как преимущественно эмпирическая наука, и потому в ней накоплено огромное количество экспериментальных данных, проведение глубокого анализа которых уже невозможно без применения средств современной информатики. Как результат, на стыке химии и информатики возникает и быстро оформляется в самостоятельную научную дисциплину хемоинформатика. методы которой начинают активно внедряться во все области химии, и, прежде всего, в органическую химию. Ранее этому процессу препятствовало отсутствие универсальной и строго обоснованной методологии и реализующего ее программного обеспечения, которые позволили бы химику на основе обработки экспериментальных данных осуществлять прогнозирование самых разнообразных свойств химических соединений и материалов.

На первом этапе выполнения настоящей диссертационной работы нами было теоретически обосновано, что такой универсальной методологией является сочетание искусственных нейронных сетей ГИНС) и фрагментных дескрипторов (ФД). Однако методология применения ИНС для прогнозирования свойств химических соединений была в это время практически неразвита, а в литературе имелись лишь единичные публикации в этом направлении. Известные ранее типы ФД, как правило, были нацелены на решение узкого круга задач и никак не могли быть положены в основу универсальной методологии поиска зависимостей между структурой органических соединений и их физико-химическими свойствами (С)8РК), а также биологической активностью (ОЯЛЯ). Кроме того, в рамках методологии (28АК/(38Р11 практически не предпринималось попыток учета влияния внешних условий (таких, например, как температура, давление, концентрация вещества, наличие и свойства того или иного растворителя и т.п.) на свойства химических соединений.

Таким образом, весьма актуальным является усовершенствование и интеграция нейросетевых и фрагментных подходов для моделирования и прогнозирования свойств органических соединений.

Цель работы. Целью настоящей диссертационной работы является создание универсальной методологии на базе ИНС и ФД, а также реализующего ее программного комплекса, позволяющего находить и анализировать количественные

зависимости между структурами органических соединений и их свойствами (с учетом и без учета влияния внешних условий), и на основе этого прогнозировать свойства еще неизученных соединений. Научная новизна работы.

1. Впервые применен аппарат искусственных нейронных сетей для количественного прогнозирования физико-химических свойств органических соединений и их реакционной способности.

2. Впервые разработан и применен универсальный подход к прогнозированию свойств органических соединений на основе комбинированного использования искусственных нейронных сетей и фрагментных дескрипторов.

3. Впервые предложена методика построения нелинейных зависимостей «структура-условия-свойства».

4. Впервые предложен метод интерпретации нейросетевых количественных зависимостей свойств органических соединений от их структуры.

5. Впервые разработаны и применены методы интеграции нейросетевых моделей «структура-свойство» на основе многоуровневого и многозадачного принципов их построения.

6. Впервые предложена концепция проведения прямых корреляций «структура-свойство» и на ее основе разработаны специальные архитектуры нейронных сетей, позволяющие осуществлять прогнозирование свойств органических соединений непосредственно из описания молекулярного графа без промежуточного вычисления вектора молекулярных дескрипторов. Тем самым впервые было осуществлено построение статистических регрессионных моделей с использованием невекгорных (структурных, графовых) данных.

7. Впервые построены (^РЯ-модели «структура-свойство», позволяющие прогнозировать спектральные свойства красителей, а также кинетические константы гомогенных органических реакций.

Результатом работы явилось создание нового научного направления - нейросе-тсвого моделирования свойств органических соединений на основе фраг-ментного подхода.

Практическая значимость работы. Предложенные методики позволяют расширить область традиционного моделирования «структура-свойство», улучшить прогнозирующую способность получаемых моделей, интерпретировать нейросе-тевые модели. Разработанный программный комплекс является универсальным инструментом для изучения зависимостей «структура-свойство», «структура-условия-свойство» и может широко использоваться для моделирования и прогноза широкого спектра свойств химических соединений. Построенные нейросетевые модели позволяют прогнозировать ряд физико-химических свойств, реакционную способность и биологическую активность органических соединений.

Личный вклад автора. Все результаты диссертации получены лично автором или в соавторстве при его непосредственном участии. Автору принадлежит выбор стратегии работы, постановка задач, математическое обоснование выбранного подхода, планирование расчетов и анализа их результатов, необходимых для решения поставленных задач, а также разработка необходимых для этого компьютерных программ.

Автор выражает глубокую признательность своему глубокоуважаемому учителю академику РАН Зефирову Н.С., а также всем сотрудникам, принимавшим участие в проведении исследований: в.н.с. Палюлину В.А., проф. Скворцовой М.И., с.н.с. Жоховой Н.И., д.б.н. Абилеву С.К., к.б.н. Любимовой И.К., к.ф-м.н. Айту А.О, u.c. Зефирову А.Н., к.ф-м.н. Кештовой C.B., prof. Vamek A. (University of Strasbourg, France), Tetko I.V. (Institute of Bioinformatics and Systems Biology, Neuherberg, Germany), аспирантам Гальбер-штам H.M., Артеменко Н.В., Ивановой A.A. Основные вклады соавторов указаны в соответствующих разделах диссертации и автореферата.

Апробация работы. Основные результаты работы были представлены на 28 всесоюзных, российских и международных научных конференциях, в том числе, на межвузовской конференции "Молекулярные графы в химических исследованиях" в Калинине в 1990 г., на 1-ой Всесоюзной конференции по теоретической органической химии в Волгограде в 1991 г., на 10-ом европейском симпозиуме "QSAR and Molecular Modelling" в Барселоне (Испания) в 1994 г., на II Российском национальном конгрессе "Человек и лекарство" в Москве в 1995 г., на втором международном симпозиуме по приобретению, представлению и обработке знаний «KARP-95» в Оборне (США, штат Алабама) в 1995 г., на 7-ом международном симпозиуме по наукам об окружающей среде «QSAR-96» в Эльсиноре (Дашы) в 1996 г., на Международном симпозиуме по применению компьютеров в химических исследованиях «CACR-96» в Москве в 1996 г., на IV Российском национальном конгрессе «Человек и лекарство» в Москве в 1997 г., на 5-ом Европейском конгрессе по интеллектуальным и мягким вычислениям «EUFIT'97» в Аахене (Германия) в 1997 г., на XVI Менделеевском съезде по общей и прикладной химии в Санкт-Петербурге в 1998 г., на I Всероссийской конференции "Молекулярное моделирование" в Москве в 1998 г., на первом индо-американском симпозиуме по математической химии в приложении к молекулярному дизайну и оценке токсичности химикатов в Сантиникетане (Индия, западная Бенгалия) в 1998 г., на 12-ом европейском симпозиуме по количественным соотношениям структура-активность «Molecular Modelling and Prediction of Bioactivity» в Копенгагене (Дания) в 1998 г., на V Всероссийской конференции «Нейрокомпьютеры и их применение» в Москве в 1999 г., на международной школе-семинаре по компьютерной автоматизации и информатизации в науке и технике «ACS'2000» в Москве в 2000 г., на 9-ом международном симпозиуме по количественным соотношениям «структура-активность» в науках об окружающей среде «Crossroads to the XXI Century» в Бургасе (Болгария) в 2000 г., на VII Всероссийской конференции «Нейрокомпьютеры и их применение» в Москве в 2001 г., на II Всероссийской конференции «Молекулярное моделирование» в Москве в 2001 г., на 3-ей Всероссийской школе-конференции по квантовой и вычислительной химии им. В.А.Фока в

Москве в 2001 г., на международной конференции по фотохимии в Москве в 2001 г., на 14-ом Европейском симпозиуме по количественным соотношениям «структура-активность» «Еиго(>8А11-2002» в Борнемуте (Великобритания) в 2002 г., на 1-ой Российской школе-конференции «Молекулярное моделирование в химии, биологии и медицине» в Саратове в 2002 г., на II Российской школе-конференции «Молекулярное моделирование в химии, биологии и медицине» в Саратове в 2004 г., на XVI Европейском симпозиуме по количественным соотношениям «структура-активность» и молекулярному моделированию на Средиземном море в Италии в 2006 г., на 2-ой германской конференции по химической информатике в Госляре (Германия) в 2006 г., на 5-ой Всероссийской конференции «Молекулярное моделирование» в Москве в 2007 г., на XVIII Менделеевском съезде по общей и прикладной химии в Москве в 2007 г., в Страсбургской летней школе по хемоинфор-матике «СЬеттйэЗЗ» в Оберне (Фраиция) в 2008 г., на 4-ой германской конференции по химической информатике в Госляре (Германия) в 2008 г.

Публикации. Содержание диссертации изложено в 54 публикациях, включая 2 главы в монографиях, 41 оригинальную статью в российских и международных журналах, в том числе 40 в журналах, рекомендованных ВАК, и 11 статей в сборниках.

Структура и объем работы. Диссертация изложена на 365 страницах машинописного текста, состоит из введения, 2 глав обзора литературы, 6 глав обсуждения результатов, выводов и списка цитированной литературы (517 ссылок), содержит 34 таблиц и 66 рисунков.

Главным содержанием настоящей работы является создание универсальной методологии, позволяющей с единых позиций осуществлять количественный прогноз самых разнообразных свойств органических соединений на основе обработки экспериментальных данных. Математически обоснован и на множестве примеров продемонстрирован центральный тезис диссертационной работы: такой универсальной методологией является сочетание многослойных искусственных нейронных сетей (ИНС) персептронного типа и фрагментных дескрипторов (ФД).

Первая и вторая главы диссертационной работы являются литературным обзором, главы с третьей по восьмую - обсуждением результатов.

Глава 1. Искусственные нейронные сети

В данной главе рассматривается математический аппарат ИНС - современного метода машинного обучения, в основе работы которого лежит имитация функционирования клеток головного мозга человека. Основное преимущество ИНС перед классическими методами статистического анализа состоит в возможности аппроксимации по экспериментальным данным любых сколь угодно сложных нелинейных зависимостей произвольного и заранее неизвестного вида.

После краткого введения в разделе 1.2 рассмотрены основные принципы нейросетевого моделирования. ИНС состоят из определенного количества «искусственных нейронов» (являющихся упрощенной математической моделью биологических нейронов) и связей между ними, соответствующих контактам через синапсы между аксонами и дендритами биологических нейронов. В процессе работы нейросети осуществляется преобразование сигналов (кодирующих обрабатываемые данные) внутри нейронов и их передача между соседними нейронами..

Архитектура ИНС определяется топологией соединений нейронов между собой. Нейроны внутри сети, как правило, организованы в группы, называемые слоями. Нейроны, принимающие внешние данные для последующей обработки, называются входными: нейроны, выводящие уже обработанные данные, называются выходными. Остальные нейроны, участвующие в промежуточной обработке данных, называются скрытыми.

Подобно сетям биологических нейронов, ИНС способны обучаться на примерах путем подстройки весов связей между нейронами. В главе подробно рассматриваются методы обучения многослойных нейронных сетей - самой популярной архитектуры ИНС, имитирующей послойную организацию коры головного мозга человека. Все эти методы основаны на использовании алгор!ггма «обратного распространения (Ьаскргора§аПоп) ошибки» для вычисления производных, вследствие чего такие ИНС часто называют нейросетями обратного распространения. Альтернативное название - многослойные персептроны. Важнейшее свойство ИНС этого типа заключается в способности обучаться апроксимации любых сколь угодно сложных нелинейных зависимостей между входными и выходными данными. Именно поэтому они и были выбраны в качестве основного инструмента обработки данных в рамках диссертационной работы.

В разделе 1.3 рассматриваются основные принципы применения многослойных ИНС для прогнозирования свойств химических соединений. Прежде всего, для построения нейросетевой модели подготавливается база данных, содержащая структуры химических соединений и известные значения тех свойств, которые в дальнейшем предполагается при помощи обученной ИНС прогнозировать. Как правило, эта база разбивается на две части. По первой из них, называемой обучающей выборкой, путем многократного предъявления ее ИНС, производится обучение последней. По второй, называемой контрольной выборкой, производится контроль прогнозирующей способности ИНС. На следующем этапе для всех химических соединений из выборок производится расчет дескрипторов, т.е. чисел, описывающих структуру химических соединений. Далее следует этап построения нейронной сети. Число нейронов входного слоя обычно берется равным числу дескрипторов, и уровень выходного сигнала каждого из них устанавливается равным значению соответствующего дескриптора. Число выходных нейронов равно числу одновременно прогнозируемых свойств, причем в качестве прогнозируемого значения каждого из свойств берется выходное значение соответствующего выходного нейрона. Скрытые же нейроны служат для промежуточных вычислений, и их

число подбирается, исходя из критерия максимизации прогнозирующей способности ИНС.

Обучающая выборка в процессе обучения ИНС ей многократно предъявляется. При каждом таком предъявлении значения дескрипторов каждого из соединений устанавливаются на входных нейронах. Далее ИНС запускается на счет, и с выходных нейронов снимаются прогнозируемые значения свойств, которые сравниваются с экспериментальными. На основании найденной разницы между экспериментальными и прогнозируемыми значениями, по определенным алгоритмам производится подстройка весов связей между нейронами с целью уменьшения этой разницы. Таким образом, в процессе обучения происходит постепенное уменьшение ошибок прогнозирования свойств химических соединений, входящих в обучающую выборку. Обученная таким образом ИНС может быть использована для прогнозирования свойств новых химических соединений. Для этого значения вычисленных для них дескрипторов устанавливаются на входные нейроны, ИНС запускается на счет, и с выходных нейронов снимаются спрогнозированные значения свойств этих соединений.

В разделе 1.4 перечислены основные ограничения ИНС и проблемы, связанные с их применением. Разработка эффективных методов решения этих проблем составила важную часть диссертационной работы (см. Главу 4).

Глава 2. Фрагмснтные дескрипторы в поиске зависимостей «структура-

Данная глава посвящена рассмотрению фрагментных дескрипторов (ФД), т.е. чисел, показывающих наличие данного фрагмента внутри химической структуры. К преимуществам ФД обычно относят следующие: 1) простота и эффективность вычисления; 2) простота интерпретации со структурно-химической точки зрения; 3) базисный характер, выражающийся в возможности аппроксимировать с их помощью любую зависимость «структура-свойство» (это было показано в рамках данной диссертационной работы, см. главу 3).

Глава начинается с изложения в разделе 2.1 истории ФД, берущей начало с появления первых аддитивных схем в 30-40-ых годах прошлого века.

В разделе 2.2 приведена подробная классификация ФД по следующим категориям: 1) типам молекулярных графов, соответствующих структурным фрагментам; 2) типам молекулярных структур; 3) типам значений дескрипторов; 4) типам дескрипторных наборов; 5) связности фрагментов; 6) уровням детализации молекулярных графов.

В разделе 2.3 перечислены основные ограничения ФД и проблемы, связанные с их использованием. Разработка способов решения этих проблем составила важную часть диссертационной работы (см. главу 5).

Глава 3. Математическое обоснование выбранного подхода

В данной главе содержится математическое обоснование использования сочетания многослойных ИНС с ФД в качестве универсального подхода к прогнозированию свойств органических соединений на основе анализа эмпирических данных.

Раздел 3.1 посвящен рассмотрению значимости для химии поиска базиса инвариантов помеченных графов. В нем отмечается, что один из наиболее популярных подходов к решению проблемы поиска соотношений «структура-свойство» основан на представлении химической структуры в виде помеченного молекулярного графа. В этом случае молекулярные дескрипторы (т.е. числа, описывающие химические структуры) и функции, аппроксимирующие разнообразные свойства химических соединений, являются инвариантами графов, т.е. числовыми характеристиками, не зависящими от нумерации вершин графа. Следовательно, при известном базисе инвариантов помеченных графов задачу поиска соотношений «структура-свойство» можно решить путем разложения зависимости моделируемого свойства от структуры химического соединения по такому базису (таковой ранее известен не был).

Раздел 3.2 содержит две основные теоремы о базисе инвариантов помеченных графов, впервые сформулированные в ходе совместной работы с М.И.Скворцовой, которая предложила их строгое математическое доказательство.

Теорема 1. Любой инвариант ЛЯ) помеченного графа II е может быть единственным образом представлен в виде:

где: Нуд - множество всех возможных помеченных графов с максимальным числом вершин п; с, - некоторые константы, не зависящие от Я и зависящие от/; ,§>(Я) - число вложений графа II1 е II[,"1 в граф Я (т.е. количество различных подграфов графа Я, изоморфных Я,). Таким образом, множество gj образует базис в алгебре инвариантов графов из множества . Суммирование ведется по подграфам Я,, получаемым из Я путем удаления ребер всеми неэквивалентными способами. •

Теорема 2. Любой инвариант АН) помеченного графа ЯеЯ^ может быть представлен в виде полинома от переменных, равных числам встречаемости некоторых связных подграфов в Я. Количество вершин в таких подграфах и степень полинома меньше либо равно п.

ривать несвязные подграфы и устанавливает полиномиальный характер связи между значением произвольного инварианта ДЯ) и значениями ФД, построенных на основе связных подграфов. Таким образом, теорема 2 устанавливает тип дескрипторов, с помощью которых может быть аппроксимирован любой инвариант помеченного графа и, следовательно, любое скалярное свойство химических соединений. При этом, однако, остается нерешенной проблема о способах нахождения огромного числа коэффициентов, содержащихся в таком полиноме.

В разделе 3.3 рассматривается найденное нами эффективное решение этой проблемы путем применения теоремы Колмогорова о представлении непрерывных функций нескольких переменных в виде суперпозиций непрерывных функций одного переменного и сложения. С использованием нейросетевой интерпретации вышеупомянутой теоремы, данной Р. Хехт-Нильсеном (К.НесЫ-МеЬеп), а также математических результатов, полученных в работах Куркова (Кйгкоуа), можно сделать вывод о возможности аппроксимации рассматриваемой в теореме 2 полиномиальной зависимости с помощью многослойной ИНС. Это легло в основу центрального положения диссертационной работы: любая сколь угодно сложная зависимость между структурой органического соединения и его свойством может быть аппроксимирована при помощи многослойной ИНС с двумя слоями скрытых нейронов и набора ФД. Отметим, что в большинстве случаев для аппроксимации зависимостей «структура-свойство» достаточно и одного слоя скрытых нейронов.

Глава 4. Разработка иейросетевых подходов

Данная глава содержит описание предложенных нами подходов к решению задач, связанных с применением ИНС для поиска количественных корреляций «структура-свойство».

Раздел 4,1 содержит описание разработанных нами способов решения проблем, связанных с явлением «переучивания» ИНС. Подраздел 4.1.1 содержит анализ этого явления. Суть его заключается в следующем: процесс обучения нейросе-ти может быть условно разделен на две последовательные фазы - «обобщения» и «запоминания». Для химических соединений, содержащихся в обучающей выборке, среднеквадратичная ошибка прогнозирования свойств постоянно уменьшается по ходу обучения в обеих фазах. В то же время, для соединений, отсутствующих в обучающей выборке, среднеквадратичная ошибка прогнозирования сначала уменьшается в фазе «обобщения», но потом начинает расти в последующей фазе «запоминания». В результате этого «переобученная» нейросеть хорошо воспроизводит свойства соединений из обучающей выборки, но плохо прогнозирует свойства любых других соединений, содержащихся, например, в контрольных выборках. Эффект «переучивания» схематически показан на Рис. 1.

Рис. 1. Эффект "переучивания" нейросети. Нижняя кривая показывает ход изменения среднеквадратичной ошибки прогнозирования для соединений, входящих в обучающую выборку, а верхняя - в контрольную выборку. Восклицательным знаком отмечена точка перехода из фазы «обобщения» в фазу «запоминания»

В подразделе 4.1.2 рассмотрены известные из литературы способы предотвращения «переучивания» и показано, что наиболее эффективным из них является остановка обучения при достижении наименьшей среднеквадратичной ошибки прогнозирования на контрольной выборке. Тем не менее, при его применении возникает новая проблема, суть которой состоит в следующем. Поскольку контрольная выборка используется для остановки обучения, т.е. для отбора модели, то содержащаяся в ней информация частично попадает в отобранную модель, и поэтому контроль по такой выборке уже не может считаться полностью независимым, а среднеквадратичная ошибка прогнозирования на ней - для объективной оценки прогнозирующей способности этой модели. В подразделе 4.1.3 изложено предложенное нами эффективное решение этой проблемы.

Для решения вышеизложенной проблемы предлагается использовать трех-выборочный метод, согласно которому производится деление всего набора данных на 3 выборки: обучающую, внутреннюю контрольную и внешнюю контроль-щто. По обучающей выборке идет построение моделей, внутренняя контрольная выборка используется для отбора оптимальной для прогнозирования модели, а ошибка прогнозирования на внешней контрольной выборке, которая никаким образом не участвует ни в построении, ни в отборе модели, используется для оценки прогнозирующей способности этой модели. Разбивку набора данных на три выборки можно осуществлять либо случайным образом, либо систематически в рамках процедуры скользящего контроля.

Трехвыборочный метод был нами впервые представлен в 1995 г. в рамках приглашенного пленарного доклада на конференции по интеллектуальной обработке данных (г. Оборн, штат Алабама, США) и был положительно воспринят сообществом математиков, специализирующихся в области ИНС. Почти одновременно и независимо от нас сходные идеи были также опубликованы И.Тетко с соавторами. С тех пор трехвыборочный метод превратился в обязательный атрибут нейросетевых исследований в данной области. Трехвыборочный метод, в сочетании с идеями ансамблевого подхода к построению моделей «структура-свойство», лег в основу как более ранней методики, изложенной в подразделе 6.3.1 (т.н. трех-выборочного скользящего контроля), так и более поздней разработки - процедуры двойного скользящего контроля, описанной в подразделе 4.1.4.

- 12В рамках предложенной нами процедуры двойного скользящего контроля исходная база данных систематически разбивается на 3 части: обучающую, внутреннюю контрольную и внешнюю контрольную выборки в соотношении (УУ-2):1:1. Внутренняя контрольная выборка используется для отбора моделей с наилучшей прогнозирующей способностью, а внешняя контрольная выборка - для оценки прогнозирующей способности отобранных моделей. Предсказанное значение свойства для каждого химического соединения вычисляется как среднее из предсказанных значений при всех N-1 разбиениях, при которых оно попадает во внешнюю контрольную выборку, тогда как дисперсия предсказанных значений может быть использована для оценки точности прогноза для данного соединения. На Рис. 2 представлена диаграмма разбиения баз данных для 7/= 5.

В результате на основе усреднения ;Ух(ЛЧ) частных моделей, выводимых при разных разбиениях исходной базы данных, получаются соответствующие комбинированные модели. Вычисляемые статистические характеристики включают: 1) $осу - параметр О2 (определяемый как (/-(ЗБ-РЗ^/БЗ, где РББ - сумма квадратов ошибок прогноза свойства, - сумма квадратов отклонения свойства от среднего значения) для усредненных спрогнозированных значений; 2) !1М8Е0Су - среднеквадратичная ошибка прогнозирования; 3) МЛЕху - средняя абсолютная ошибки прогнозирования.

Рис. 2. Схема 5х4-кратного двойного скользящего контроля

Метод двойного скользящего контроля обеспечивает коррекгную оценку реальной прогнозирующей способности моделей, процедура отбора которых предполагает использование контрольной выборки либо процедуры скользящего контроля. Он не только позволяет эффективно предотвращать «переучивание» нейро-сетей (благодаря трехвыборочному подходу), но и обращает стохастические свойства нейросетевых моделей из кажущегося недостатка в преимущество, поскольку благодаря этому позволяет оценивать ожидаемую ошибку прогноза.

В подразделе 4.1.5 описан разработанный нами статистический метод построения линейно-регрессионных моделей, названный мегодом Быстрой Пошаго-

вой Множественной Линейной Регрессии (БПМЛР). который основан на трехвы-борочном подходе, совместим с процедурой двойного скользящего контроля, и позволяет очень эффективно осуществлять предварительный отбор дескрипторов для ИНС. Благодаря его использованию решается проблема невозможности обработки при помощи ИНС выборок, включающих большое число дескрипторов.

В рамках метода БПМЛР внутренняя контрольная выборка используется для определения оптимального числа включаемых в модель дескрипторов. Работа метода основана на использовании текущего вектора ошибок (невязок); который в начале работы инициализируется экспериментальными значениями свойств соединений из обучающей выборки. На каждой итерации дескриптор, наилучшим образом коррелирующий с текущим вектором ошибок на обучающей выборке, добавляется к текущему набору отобранных дескрипторов, а соответствующая регрессионная модель, построенная на этом дескрипторе, используется для пересчета текущего вектора ошибок, который уже используется на следующей итерации для отбора следующего дескриптора и т.д. Каждый дескриптор может быть включен в модель несколько раз на разных итерациях. При добавлении очередного дескриптора. регрессионный коэффициент при свободном члене из построенного на нем регрессионного уравнения суммируется с текущим коэффициентом при свободном члене в многомерной модели. Что касается регрессионного коэффициента при самом дескрипторе, то он переносится в многомерную модель, если дескриптор включается в нее в первый раз, либо суммируется с уже имеющимся значением при последующем включении его в модель. Процесс пошагового отбора дескрипторов и построения результирующей модели останавливается по достижению наименьшей среднеквадратичной ошибки прогнозирования на внутренней контрольной выборке, тогда как среднеквадратичная ошибка прогнозирования на внешней контрольной выборке используется для оценки прогнозирующей способности итоговой многомерной линейной регрессионной модели.

Хотя метод БПМЛР первоначально был предназначен только для предварительного отбора дескрипторов для построения нейросетевых моделей, однако за время эксплуатации он успел себя зарекомендовать как мощный метод статистического анализа, обладающий очень высокой производительностью и позволяющий даже на персональном компьютере эффективно работать с очень большим числом дескрипторов. Последнее свойство важно при работе с ФД ввиду их очень большого числа.

Раздел 4.2 содержит описание предложенного нами подхода к интерпретации нейросетевых регрессионных моделей. Необходимость его разработки была обусловлена тем, что раньше ИНС рассматривались как «черный ящик», способный осуществлять прогноз, но не предоставляющий никакой возможности описать нейросетевые модели на содержательном уровне. Ранее именно это и считалось основным недостатком ИНС, поскольку для обоснованного использования построенных моделей часто требуется понимание лежащих в их основе физико-химических и биологических явлений. И действительно, наборы весовых коэффи-

циентов не могут быть непосредственно использованы для интерпретации нейро-сетевых моделей, поскольку их числовые значения в значительной мере меняются при перестроении последних, а также сильно зависят от числа скрытых нейронов, и поэтому нельзя их непосредственно использовать для описания нейросетевых моделей «структура-свойство» на качественном уровне.

Для решения этой проблемы мы предлагаем использовать специальный набор статистических характеристик, значения которых, в отличие от значений весовых коэффициентов, почти не меняются при перестроении моделей, слабо зависят от числа скрытых нейронов и вполне могут быть использованы для интерпретации нейросетевых моделей. Более того, с их помощью можно анализировать даже такие характеристики соотношений «структура-свойство»; которые обычно невозможно извлечь при помощи стандартных статистических подходов и которые могут быть важны для понимания природы соответствующих физико-химических и биологических процессов.

Основная идея предлагаемого подхода состоит в использовании для интерпретации нейросетевых моделей статистических характеристик, основанных на коэффициентах разложения в ряд по Тэйлору-Маклорену функции описывающей зависимость выходов ЙНС от входов. Итак, предлагаются следующие характеристики: Мх - среднее значение первой частной производной по отношению к значению дескриптора х по выборке; Дг - дисперсия значений первой частной производной по выборке; М„ - среднее значение второй частной производной по выборке; М1у - среднее значение второй смешанной частной производной по отношению к значениям двум дескрипторов (х и у)', 1Х - сумма квадратов значений первой частной производной, Заметим, что значения Мх являются аналогами регрессионных коэффициентов в линейно-регрессионных моделях; аналогично Вх показывают степень нелинейности нейросетевых моделей, а Мр и М^ служат для анализа нелинейного характера моделей и взаимодействия в них дескрипторов.

Нами продемонстрировано на нескольких примерах, что при использовании вышеперечисленных статистических характеристик стало возможным извлечь из набора данных не только информацию, которую предоставляют традиционные методы линейного регрессионного анализа (например, о знаке и величине влияния дескрипторов на свойства химических соединений), но и получить дополнительную ценную информацию о нелинейном характере зависимостей «структура-свойство» и взаимодействии дескрипторов.

В разделе 4.3 рассматривается предложенная нами концепция обучаемой симметрии как пример использования ИНС для решения' одной из задач, возникающих при построении корреляций «структура-свойство», которые в принципе не могут быть корректно решены при помощи линейных статистических методов. Как известно, классический подход к выявлению количественной зависимости «структура-свойство» («структура-активность») для узкого ряда соединений, обладающих одинаковым скелетом, предполагает использование в качестве дескрипторов констант заместителей. В этом случае может возникнуть проблема, ко-

гда несколько положений заместителей топологически эквивалентны. Например, для пиридина (1) заместители и 11б, а также и находятся в топологически эквивалентных положениях. В этом случае корректно построенная модель «структура-свойство» должна обеспечить, например, одинаковое значение спрогнозированного свойства для 2-хлоргшридина (2) и 6-хлорпиридина (3), поскольку это одно и то же соединение.

Возникает вопрос: как можно построить такую модель? Нами показано, что такие обычно применяемые для этой цели подходы, как предварительная канонизация структур и использование простейших аддитивных симметрических функций, не дают адекватного решения задачи. Более того, строго математически доказано, что общий вид необходимой для построения такой модели функции, инвариантной относительно перестановки некоторых своих аргументов, должен быть нелинейным относительно этих аргументов. Следовательно, обычно применяемые в «классическом С^АЯ» средства линейного статистического моделирования не могут в принципе привести к построению оптимальной модели с необходимыми свойствами симметрии. Поэтому в данном случае мы рекомендуем использовать процедуры анализа данных, обеспечивающие возможность построения нелинейных моделей произвольной сложности, например ИНС.

Для решения этой проблемы мы предлагаем концепцию обучаемой симметрии. Согласно этой концепции необходимо: а) расширить обучающую выборку соединений путем добавления копий соединений («клонов») с теми же значениями моделируемого свойства, но различающихся перестановкой топологически эквивалентных позиций присоединения заместителей (например, структура 2 должна быть дополнена структурой 3); б) использовать ИНС для выявления количественной зависимости «структура-активность». В этом случае ИНС обучаются строить нелинейные зависимости «структура-активность» с необходимыми свойствами симметрии.

Эффект применения концепции обучаемой симметрии проиллюстрирован в данной диссертационной работе на двух примерах построения количественных моделей «структура - биологическая активность» для блокаторов кальциевых канатов Ь-типа (4) и для обладающих галлюциногенной активностью фенилалкила-минов (5). В обоих случаях в качестве дескрипторов использовались константы заместителей (как и в оригинальных работах, откуда выборки были взяты), а в качестве метода анализа данных - ИНС. Модели строились как на исходных базах, так и на базах, расширенных путем добавления «клонов», и при этом использовалась одна и та же разбивка на обучающую и контрольную выборки (второй кон-

трольной выборки не понадобилось из-за отсутствия «переучивания»), В Табл. 1 представлены значения среднеквадратичной ошибки прогнозирования на контрольных выборках для этих двух случаев.

Как видно из Табл. 1, применение концепции обучаемой симметрии в обоих случаях привело к значительному улучшению прогнозирующей способности ией-росетевых моделей. Подчеркнем также, что построенные нами нейросетевые количественные модели «структура-активность» существенно лучше по своим статистическим характеристикам опубликованных ранее для этих же наборов дан-

Табл. 1. Сравнение прогнозирующей способности нейросетевых моделей, построенных без и с добавлением "клонов" в соответствии с концепцией обучаемой симметрии_

Моделируемое свойство Размер выборки Среднеквадратичная ошибка прогнозирования на контрольной выборке (в логарифмических единицах)

без «клонов» с «клонами»

Блокирующая способность дигидропи-ридинов 4 46 1.59 0.71

Галлюциногенная активность фенилал-киламинов 5 35 0.98 0.47

Глава 5. Разработка фрагментных подходов

Данная глава содержит набор разработанных нами концепций, методов, программ и алгоритмов, нацеленных на превращение фрагментаого подхода в мощный инструмент максимально точного моделирования широкого разнообразия свойств органических соединений. В главе не только приводятся способы преодоления существовавших ранее ограничений ФД, но и предлагаются методики, направленные на значительное расширение сферы применения фрагментного подхода.

Раздел 5.1 посвящен описанию принципов построения разработанных нами ФД, а также методов, и алгоритмов их генерации при помощи дескрштгорного блока Fragment. Отмечается, что основными отличительными особенностями раз-

работанного нами варианта ФД является чрезвычайная гибкость (и, как следствие, универсальность их применения для моделирования самых разнообразных свойств органических соединений), а также очень высокая производительность их генерации. Гибкость достигается наличием: а) большого числа типов генерируемых фрагментов (см. Рис. 4) в сочетании с развитой четырехуровневой классификацией типов атомов (см. подраздел 5.1.2); б) механизма их автоматического обобщения; в) нескольких стратегий комбинирования разных уровней классификации атомов внутри фрагментов. Эффективность достигается за счет совершенного алгоритма, генерирующего все типы фрагментов за два просмотра структуры, использования оригинального трехуровневого иерархического списка кодов генерируемых фрагментов с очень быстрым доступом к его элементам, а также поддержкой динамически меняющегося списка групп статистически эквивалентных дескрипторов. Важными особенностями также является возможность работы с «выделенными» атомами (см. раздел 5.3), полимерными структурами (см. раздел 5,4) и етереохимической информацией. Пример кодировки фрагмента дан на Рис. 5.

Рис. 3. Типы фрагментных дескрипторов. Коды р1. ре соответствуют линейным фрагментам, включающим, соответственно, от 1 до 15 атомов; коды с3. сГ соответствуют циклическим фрагментам, включающим от 3 до 15 атомов; коды в4. 5б соответствуют разветвленным фрагментам, включающим от 4 до б атомов; коды Ь0. Ьс1 - 14 типам бициклических фрагментов; коды Ю .Ле - 15 типам трициклических фрагментов.

Рис. 4. Иерархическая система классификации атомов во фрагментах. Полностью показана ветка, соответствующая атомам углерода. Переход к более высокому уровню обобщения достигается путем замены в коде атома крайнего правого символа, отличного от символа подчеркивания, на символ подчеркивания.

— N =!—5=0 , p4.ND2CD3CD30D_.212

Рис. 5. Пример кодировки фрагмента. Код фрагмента формируется из разделенных через запятую кода типа фрагмента, сцепленных кодов атомов и сцепленных кодов связей..

В разделе 5.2 приведены примеры прогнозирования физико-химических свойств органических соединений с использованием ФД и статистического аппарата множественной линейной регрессии. Эффект от перехода к нейросетевому моделированию описан ниже в разделе 6.6. Далее в подразделах 5.2.1 (на примере прогнозирования поляризуемости химических соединений) и 5.2.2 (на примере прогнозирования энтальпии образования алифатических полинитросоединений) показано, что ФД при линейном моделировании являются удобным средством автоматического создания аддитивных схем расчета физико-химических свойств органических соединений. В подразделах от 5.2.3 до 5.2.7 приведены работы (сделанные в соавторстве с Н. И. Жоховой), в которых ФД, в сочетании с множественной линейной регрессией, были успешно использованы для прогнозирования таких видов физико-химических свойств, которые лишь с большим трудом поддаются расчету при помощи методов квантовой химии и молекулярного моделирования. Такими свойствами являются: а) магнитная восприимчивость; б) энтальпия парообразования; в) энтальпия сублимации; г) температура вспышки; д) сродство азо- и антрахиноиовых красителей к целлюлозному волокну. В Табл. 2 приведены статистические характеристики построенных моделей с наиболее высокой прогнозирующей способностью. Отметим, что во всех случаях построенные модели превзошли по своим статистическим показателям модели, ранее опубликованные в литературе и построенные на тех же данных.

Табл. 2. Статистические характеристики моделей, основанных на сочетании ФД с _аппаратом множественной линейой регрессии_

Свойство Обучающая выборка Контрольная выборка

Д* 5 МАЕ или ЯМБЕ*

Поляризуемость, А1 0.997 0.38 .

Энтальпия образования алифатических полинитросоединений, ккал/моль 0.985 2.65

Магнитная восприимчивость хЮ"6 единиц 0.985 4.99 7.02

Энтальпия парообразования, ккал/моль 0.993 • 1.79 1.57

Энтальпия сублимации, ккал/моль 0.845 2.97 2.16

Температура вспышки, °С 0.956 11.4 11.8

Сродство азо- и антрахиноновых красителей к целлюлозному волокну, кДж-моль"' 0.954 0.76 0.83*

В разделе 5.3 рассматривается подход, который позволяет значительно расширить круг свойств, для прогнозирования которых можно применять ФД за счет указания специальных «выделенных» атомов, играющих специфическую роль в природе моделируемого свойства. Например, при моделировании константы основности аминов логично отметить тот самый атом азота внутри химической структуры, который участвует в рассматриваемом кислотно-основном равновесии. Суть предлагаемого метода заключается в том, что: 1) такие «выделенные» атомы помечаются определенными метками в соответствии с тем, по каким причинам этот атом выделен; 2) при генерации ФД каждая такая метка рассматривается как отдельный псевдоатом с именем, соответствующем символу метки; 3) при построении уравнений «структура-свойство» предусмотрена возможность включать в модели только те дескрипторы, которые содержат такой псевдоатом.

Мы предлагаем использовать ФД с "выделенными" атомами для моделиро-. вания широкого круга свойств: 1) при расчете локальных характеристик молекул, таких, например, как химические сдвиги в спектрах ЯМР, либо кислотно-основные свойства определенных атомов в молекулах; 2) при прогнозировании биологической активности для однородных выборок соединений, содержащих общий фрагмент с анкерными атомами, к которым присоединены заместители; 3) для прогнозирования кинетических параметров химических реакций одного типа; 4) при прогнозировании физических свойств полимеров (за счет добавления специальных меток к атомам, принадлежащим основной цепи полимера); 5) для прогнозирования свойств, обусловленных образованием супрамолекулярных комплексов (за счет добавления специфических меток, указывающих на роль атомов в супрамолекулярном взаимодействии); 6) для учета стереохимической информации (путем добавления меток Б и Л либо О и Ь к стереохимическим центрам, а также Е и Ъ к атомам, связанным двойной связью). В каждом случае предлагаемый прием

обеспечивает использование в построении моделей наиболее важных по смыслу ФД. Таким образом, использование ФД с «выделенными» атомами позволяет значительно расширить сферу применения фрагментного подхода в поиске количественных соотношений «структура-свойство».

Далее на нескольких примерах рассмотрено применение ФД с «выделенными» атомами. Во всех случаях генерация дескрипторов проводилась при помощи блока Fragment. Предварительный отбор дескрипторов осуществлялся с помощью метода БПМЛР, а построение окончательной модели - при помощи трехслойной ИНС. Оценка прогнозирующей способности проводилась с помощью процедуры двойного скользящего контроля.

В подразделе 5.3.1 рассмотрено применение ФД с «выделенными» атомами для моделирования химических сдвигов в 51Р ЯМР спектрах производных моно-фосфинов. Диаграмма разброса, список наиболее важных фрагментов и статистические характеристики построенной модели приведены на Рис. 6. Этот пример иллюстрирует возможность использования дескрипторов данного типа для прогнозирования локальных свойств химических соединений, которые можно приписать определенным атомам или группам атомов внутри молекулы. В этом случае использование цепочечных фрагментов с терминальными «выделенными» атомами позволяет получать легко интерпретируемые модели, наглядно показывающие пути влияния отдельных атомов или групп внутри молекулы на изучаемое свойство. Например, первые три фрагмента на Рис. 6 отражают ст-индукционное влияние ал-кильных заместителей на атом фосфора, четвертый - эффект сопряжения с ароматическим ядром, пятый - влияние расположенного в орто-положении атома фтора.

g^ocv = 0.8298, RMSEocv = 5.7 ppm, MAEnCv = 6.1 ppm

Рис. 6. Диаграмма разброса, список наиболее важных фрагментов и статистические характеристики нейросетевой модели для прогнозирования химических сдвигов в 3|Р ЯМР спектрах производных монофосфинов.

-21В подразделе 5.3.2 рассмотрено применение ФД с «выделенными» атомами для моделирования способности аналогов 1-[(2-гидроксиэтокси)-метил]-6(фенил'тио)тимина (НЕРТ) ингибировать обратную транскриптазу вируса ВИЧ-1. Соответствующие диаграмма разброса, список наиболее важных фрагментов и статистические характеристики построенной модели приведены на Рис. 7. Данный пример иллюстрирует возможность применения ФД с «выделенными» атомами для количественного прогнозирования биологической активности органических соединений внутри рядов соединений с одинаковым общим фрагментом (скелетом). Следует отметить, что обычно ФД редко используются для этой цели, поскольку аппроксимируемый с их помощью вклад конкретной группировки атомов в общее свойство оказывается независимым от того, где именно внутри химической структуры она находится. Поскольку это плохо соотносится с природой биологической активности, которая связана с точным пространственно-электронным распознаванием молекул, то это часто приводит к плохой прогнозирующей способности построенных С^АЯ-моделей и невозможности их интерпретации с целью выявления факторов, влияющих на биологическую активность.

Предлагаемые ФД с «выделенными» атомами полностью решают эту проблему, поскольку позволяют позиционировать все рассматриваемые фрагменты относительно заранее заданных внутри химической структуры «реперных точек». На изображенной (Рис. 7) общей структуре для рассматриваемого ряда соединений такими «реперными» точками являются места подсоединений заместителей к общему скелету, которые мы «выделили» путем приписывания им меток а, 6, с и (/. Благодаря этому аппроксимируемый при помощи ФД (с «выделенными» таким образом атомами) вклад группировки атомов в общую биологическую активность оказывается зависимым от ее положения внутри химической структуры. Это приводит не только к существенному росту прогнозирующей способности получающихся <38А11-моделей, но и делает их легко интерпретируемыми со структурно-химической точки зрения, поскольку значения регрессионных коэффициентов в линейных моделях и введенной нами характеристики Мх для нейросетевых моделей четко показывают, какая группировка атомов в каком положении вносит тот или иной вклад в биологическую активность, и, следовательно, какие изменения нужно внести для ее оптимизации. Более того, рассмотрение характеристик М\у позволяет выявить синергию и диссинерппо во влиянии различных группировок атомов на биологическую активность.

Эксперимент, 1о§ 1/ЕС50

о2ОСУ = 0.856, ЯШЕоСУ = 0.52 и МАЕ0су = 0.41

Рис. 7. Диаграмма разброса, список наиболее важных фрагментов и статистические характеристики нейросетевой модели для прогнозирования способности аналогов НЕРТ ингнбировать обратную транскриптазу.вируса ВИЧ-1

В подразделе 5.3.3 рассмотрено применение ФД с «выделенными» атомами для прогнозирования констант скорости гидролиза эфиров карбоновых кислот. В данном случае в качестве «выделенных» атомов взяты реакционные центры, включающие атомы углерода, входящие в образующиеся в входе реакции карбоксильную и гидроксильную группы. Кроме ФД с «выделенными» атомами, в соответствии с развиваемой нами методологией построения моделей «структура-условия-свойство» (см. раздел 7.2), мы также использовали дескрипторы, описывающие условия реакции: состав растворителя и температуру. В результате была получена нейросетевая модель со следующими статистическими характеристиками, определенными при помощи процедуры двойного скользящего контроля: ^псу = 0.9162, ЛМЖцсу = 0.31 и МАЕтхх = 0.19. Три наиболее важных фрагмента из вошедших в построенную модель изображены на Рис. 8. Первый из них описывает стерическое влияние заместителей при а-углеродном атоме карбоновой кислоты, второй - электронное влияние расположенного в уходящей группе атома кислорода, несущего неподеленные электронные пары, третий — влияние фениль-ной группы при карбоксиле.

Таким образом, данный пример иллюстрирует возможность применения ФД с «выделенными» атомами для количественного прогнозирования кинетических констант органических реакций, а также для автоматизированного извлечения из огромной массы экспериментальных данных основных факторов, влияющих на протекание органических реакций. Можно надеяться, что в будущем подобного рода анализ займет достойное место в широком арсенале средств теоретической органической химии.

Рис. 8. Наиболее важные фрагменты для прогнозирования констант скоростей гидролиза сложных эфиров

Раздел 5.4 посвящен предложенной нами концепции пеевдофрагментных дескрипторов (ПФД) как одного из возможных подходов к решению проблемы «отсутствующих» (или «редких») фрагментов, которые могут отсутствовать (либо быть недостаточно представленными) в обучающей выборке, но присутствовать в соединениях, для которых осуществляется прогноз. Поскольку величины вкладов таких фрагментов не могут быть определены по обучающей выборке, то можно ожидать значительных ошибок прогнозирования для соединений, их содержащих. Мы предлагаем решать эту проблему путем введения дополнительных дескрипторов, значения которых в какой-то мере были бы связаны с величинами вкладов фрагментов в прогнозируемое свойство. Для этой цели мы предлагаем использовать особую категорию ФД, значения которых вычисляются путем комбинирования свойств атомов, присутствующих в этих фрагментах. Дескрипторы такого рода мы будем называть псевдофрагментными дескрипторами (ПФД), чтобы их отличать от «настоящих» ФД, имеющих в качестве значения числа встречаемости либо индикаторы наличия тех или иных фрагментов в структурах химических соединений. В качестве свойств атомов для прогнозирования физико-химических свойств органических молекул можно, например, использовать атомную массу, число электронов, ковалентный радиус, электроотрицательность, потенциал ионизации и т.д., поскольку предполагается, что от них зависят величины вкладов фрагментных дескрипторов в прогнозируемое свойство. Важно также, чтобы используемые комбинации свойств имели ясный физический смысл, поскольку в этом случае возрастают шансы наличия корреляции их значений с величинами вкладов фрагментов. При такой корреляции небольшое число ПФД начинает входить в статистические модели вместо многочисленных «настоящих» ФД, в том числе и потенциально редких, выступая тем самым в качестве сжатого обобщения последних. Это в значительной степени и решает проблему редких фрагментов,

если ПФД строятся на основе присутствующих практически во всех молекулах отдельных атомов или небольших цепочек атомов.

В качестве примера простейшего ПФД рассмотрим конструкцию —У R;,

где: R, - ковалентный радиус атома, Na - число атомов в молекуле. Очевидно, что куб атомного радиуса пропорционален «объему» атома. Поскольку суммирование идет по атомам, то они и выступают в качестве базового фрагмента для вычисления дескриптора. Физический смысл всего дескриптора - средний удельный объем атома. Можно предположить, что он будет играть существенную роль при прогнозировании волюметрических свойств веществ, например, плотности. При включении такого дескриптора в модель, даже если будет требоваться осуществить прогноз подобного свойства для химического соединения, содержащего редкий элемент (отсутствующий в обучающей выборке), все равно будет дана разумная аппроксимация его вклада в прогнозируемое свойство.

В соответствии с вышеизложенными принципами нами было сконструировано 50 ПФД на основе как отдельных атомов, так и коротких цепочек, включающих до 5 атомов. Для их вычисления нами разработан дескрипторный блок FRAGPROP (в составе созданного нами программного комплекса NASA WIN). Опыт работы с этим блоком показал, что добавление ПФД к «настоящим» ФД практически всегда повышают прогнозирующую способность моделей, предназначенных для прогнозирования физико-химических свойств органических соединений. Приведем в качестве примера прогнозирование трех ключевых физических свойств полимеров на основе структур мономеров при помощи статистических моделей, построенных методом БПМЛР. В Табл. 3 приведено сравнение статистических характеристик для построенных с использованием ФД моделей как с добавлением, так и без добавления ПФД.

Как видно из таблицы, ПФД позволяют в значительной степени улучшать качество моделей, построенных на основе ФД, за счет решения проблемы редких фрагментов. Следует отметить, что хотя ПФД можно применять и без ФД для построения моделей «структура-свойство», наилучшие модели всегда получаются только в сочетании с «настоящими» ФД. Поэтому их применение следует рассматривать как способ улучшения моделей, построенных на базе ФД.

Табл. 3. Статистические характеристики моделей, полученных для прогнозирования физических свойств полимеров с использованием как только ФД, так и с добавлением

Свойство Только ФД ФД с добавлением ПФД

Q1DCV RMSEocv МАЕОСУ Q DCV RMSEqcv MAEjxy

п 0.782 0.033 0.021 0.872 0.026 0.015

Т 0.849 45.0 32.0 0.864 42.7 28.0

Р 0.474 0.159 0.096 0.910 0.066 0.043

где: п - показатель преломления при 298К; Гг - температура стеклования (в градусах Кельвина); р — плотность в аморфном состоянии (г/см3,298К).

Глава 6. Сочетание ИНС и ФД

Данная глава посвящена изучению эффекта от совместного использования ИНС и ФД. На большом числе примеров проводится сравнение с линейными моделями и делается вывод о преимуществах этого сочетания.

Раздел 6.1 посвящен изложению результатов нашей первой работы по ней-росетевому моделированию, опубликованной еще в 1993 г., в которой математические аппараты ИНС и пошаговой множественной линейной регрессии в сочетании с ФД и топологическими индексами (ТИ) были систематически применены для построения моделей, позволяющих прогнозировать разнообразные свойства углеводородов (главным образом, алканов). Для возможности сравнений при построении моделей одна и та же база была одинаковым образом разбита на обучающую и контрольную выборки. Результаты вычислительных экспериментов приведены в Табл. 4. В экспериментах 1-6 прогнозировалось по одному свойству (один выходной нейрон в ИНС), тогда как в моделях 7 и 8 одновременно прогнозировалось шесть различных свойств (шесть выходных нейронов) с помощью единой нейросетевой модели. Все линейно-регрессионные модели строились отдельно для каждого свойства.

Из анализа данных в Табл. 4 можно сделать следующие, выводы.

1) Для углеводородов температура кипения, плавления, октановое'число, критическая температура и поверхностное натяжение прогнозируются существенно лучше при использовании ИНС по сравнению с линейным регрессионном анализом. Это свидетельствует о нелинейном характере зависимости перечисленных выше свойств от рассматриваемых дескрипторов.

2) При прогнозирований молярного объема, молярной рефракции и теплоты испарения алканов предпочтительно использовать линейный регрессионный анализ по сравнению с ИНС, что свидетельствует о практически строгой линейной зависимости этих свойств от рассматриваемых дескрипторов.

3) В большинстве случаев использование ФД приводит к построению моделей с лучшей прогнозирующей способностью по сравнению с топологическими индексами.

4) Сочетание ИНС с ФД чаще всего приводит к построению моделей с наилучшей прогнозирующей способностью.

Именно этот последний вывод и послужил отправным толчком для проведения большой серии разноплановых исследований, которые и легли в основу данной диссертационной работы.

Итак, оценивая рассмотренную в данном разделе работу, можно сказать, что она во многих отношениях явилась пионерной:

-261) Она явилась первой работой, в которой аппарат ИНС был применен для прогнозирования физико-химических свойств органических соединений.

2) В ней впервые применено сочетание аппарата ИНС и ФД д^я прогнозирования свойств органических соединений.

3) В ней впервые было успешно применено многозадачное обучение, позволяющее одновременно осуществлять прогноз нескольких свойств в рамках одной модели.

Табл. 4. Результаты нейросетевого и линейно-регрессионного моделирования физико-

№ Выборка Дескрипторы ИНС Множественная линейная регрессия

Свойство N, К S, R S, R •Sv

1 Ьр(а) 159 18 ТИ 4.08 0.999 2.33 9.44 0.996 10.9

2 Ьр(а) 159 16 ФД 4.74 0.999 2.18 23.0 0.979 22.5

3 тр(а) 81 9 ТИ Í6.2 0.976 13.8 29.4 0.924 28.5

4 тр(а) 81 9 ФД 16.0 0.977 16.8 32.9 0.902 31.8

5 on(hc) 138 15 ТИ 10.9 0.841 12.1 13.2 0.761 17.0

6 on(hc) 138 15 ФД* 5.97 0.954 4.37 10.6 0.858 10.4

7 Vm(a) 63 6 ТИ 0.84 0.999 0.89 0.45 1.000 0.64

MR(a) 63 6 ТИ 0.15 1.000 0.18 0.04 1.000 0.09

Ща) 63 6 ТИ 0.44 0.994 0.51 0.27 0.999 0.21

Па) 63 6 ТИ 3.80 0.994 3.94 5.25 0.996 2.82

PÁa) 63. 6 ТИ 0.46 0.984 0.39 0.68 0.988 0.39

Ф) 63 6 ТИ 0.18 0.996 0.28 0.28 0.990 0.29

8 VJa) 63 6 ФД 0.88 0.999 1.10 0.62 1.000 0.42

MR(a) 63 6 ФД 0.20 0.999 0.18 0.04 1.000 0.09

Ща) 63 6 ФД 0.44 0.996 0.56 0.18 1.000 0.07

ТМ 63 6 ФД 3.37 0.995 3.58 7.52 0.993 4.96

РМ 63 6. ФД 0.44 0.986 0.23 0.79 0.986 0.40

Ф) 63 6 ФД 0.17 0.996 0.17 0.31 0.989 0.23

В разделе 6.2 сравнивается прогнозирующая способность нейросетевых и некоторых из рассмотренных выше линейно-регрессионных моделей (см. Табл.2

на стр. 19), построенных, в отличие от моделей из предыдущего раздела, на выборках существенно большего размера. Эти выборки содержат разнородные органические соединения, принадлежащие разным классам. Результаты сравнения прогнозирующей способности на одних и тех же контрольных выборках представлены в Табл. 5.

Табл. 5. Точность прогноза для линейно-регрессионных и ненросетевых моделей

Свойство МАЕр или КМБЕр* для линейно-регрессионной модели МАЕр или ЯМБЕр* для ней-росетевой модели

Магнитная восприимчивость. -<10"4 единиц 7.02 6.25

Энтальпия парообразования, ккал/моль 1.57 1.77

Энтальпия сублимации, ккал/моль 2.16 1.66

Температура вспышки, °С 15.8* 14.6*

Как видно из Табл. 5, для трех из четырех свойств (т.е. для магнитной восприимчивости, энтальпии сублимации и температуры вспышки) применение ИНС приводит к уменьшению ошибок прогноза. Что же касается энтальпии парообразования, то можно предположить, что более высокая прогнозирующая способность линейно-регрессионной модели обусловлена строгим аддитивным характером этого свойства. Это вполне согласуется с рассмотренными выше результатами, полученными для углеводородов. Таким образом, в большинстве случаев применение ИНС вместо аппарата множественной линейной регрессии приводит, к улучшению прогнозирующей способности количественных моделей «структура-свойство».

Раздел 6.3 посвящен применению сочетания ИНС с ФД для моделирования ряда ключевых и технологически-важных физических свойств органических соединений, как то: температуры кипения, вязкости, плотности и давления насыщенных паров. Для этих свойств модели строились только по разнородным выборкам, содержащим представителей разных классов органических соединений. Исследование проводилось в рамках процедуры трехвыборочного скользящего контроля, которая явилась дальнейшим развитием трехвыборочного подхода и предшественницей процедуры двойного скользящего контроля. Основная идея метода - использование процедуры скользящего контроля и ансамбля нейросете-вых моделей вместо единичной модели. Это позволяет сделать прогноз и оценку его качества более обоснованным и не зависящим от конкретной разбивки базы на три выборки - обучающую, внутреннюю и внешнюю контрольные. Статистические показатели построенных моделей представлены в Табл. 6;

Как видно из Табл. 6, нейросетевые модели обладают лучшими статистическими показателями по сравнению с линейно-регрессионными моделями, причем для температуры кипения, плотности и вязкости это различие существенно. Здесь также следует отметить,' что полученные нейросетевые модели по этим показателям превосходят все опубликованные ранее в литературе. В данном разделе

таюке исследуется эффект использования ансамблей нейросетевых моделей, результатом прогноза которых является значение, получаемое путем усреднения прогнозов, выдаваемых индивидуальными моделями. В Табл. 6 также проведено сравнение двух наборов статистических показателей, первый из которых является результатом усреднения соответствующих показателей индивидуальных нейросетевых моделей, а второй описывает прогнозирующую способность их ансамбля. Приведенные данные позволяют сделать вывод о существенных преимуществах использования ансамблей нейросетевых моделей по сравнению с индивидуальными моделями. Можно предположить, что в данном случае два основных фактора вносят вклад в это явление. Во-первых, усреднение по моделям, получаемым при разных разбивках базы данных, позволяет эффективно использовать для обучения информацию из внутренних контрольных выборок, что эквивалентно увеличению эффективного размера обучающих выборок. Во-вторых, наблюдается известное явление подавления «шума» при усреднении.

Табл. 6. Статистические показатели моделей для прогнозирования физических свойств

____ прогнозируемое свойство статисгические^--

^_ показатели Т кип,'0 С ^ ОД Пас Й, г/см3 Па

Количество соединений 510 367 803 349

Ансамбль ИНС ■ я 0.9911 0.9904 0.9943 0.9979

ЯМЯЕ, 9.1 . 0.078 0.018 0.095

ЯМ5ЕУ 16.1 0.177 0.036 0.140

и 16.9 0.208 0.043 0.158

Индивидуальные ИНС я 0.9869 0.9815- 0.9911 0.9969

ЯМБЕ, 11.0 0.105 0.034 0.118

ЯМБЕ, 16.1 0.189 0.052 0.143

ЯМ5Е„ 17.2 0.219 0.061 0.161

Линейно-регрессионные модели Я 0.9814 0.9794 0.9897 0.9902

ЯМБЕ, 12.9 0.111 0.036 0.198

ЯШЕ, 16.7 0.195 0.055 0.248

18.6 0.212 0.067 0.258

где: Т кип - температура кипения; г] - вязкость; с1 - плотность; УР - давление насыщенных паров; Л — коэффициент корреляции между спрогнозированными и экспериментальными значениями; ЯМБЕ, - среднеквадратичная ошибка на обучающих выборках; ЯМБЕ, - среднеквадратичная ошибка на внутренних контрольных выборках; ЯМ5ЕР -среднеквадратичная ошибка на внешних контрольных выборках.

На Рис. 9 представлены диаграммы разброса, полученные для внешних контрольных выборок.

📎📎📎📎📎📎📎📎📎📎