Свд на черном рынке цена: Продай оружие! – Деньги – Коммерсантъ

Содержание

«Из чего только не делают»: как устроен черный рынок оружия в России

В России задержали 85 подпольных оружейников, ликвидировано 17 подпольных мастерских по модернизации оружия и изготовлению боеприпасов. Об этом сообщает ЦОС ФСБ.

Задержанные занимались восстановлением боевых свойств гражданских образцов оружия и их продажей. Изъято 353 единицы иностранного и отечественного оружия. Спецоперация проходила при взаимодействии ФСБ с МВД и Росгвардией.

Среди изъятого — шесть пулеметов, 23 автомата, 18 пистолетов-пулеметов, 224 пистолета и револьвера, больше сотни винтовок, карабинов и ружей. Также изъяты артиллерийские боеприпасы, противопехотные мины, 30 кг взрывчатых веществ и 12 приспособлений для бесшумной стрельбы.

Как появляется нелегальное оружие

В России в нелегальном обороте сейчас находится от 5 до 20 млн единиц оружия, рассказал «Газете.

Ru» председатель общественной организации «Гражданская безопасность» Сергей Гринин.

«Черный рынок оружия довольно неплохо работает. Достоверно посчитать все стволы невозможно, поэтому такой разброс», — уточнил он.

Основная часть нелегального оружия, по словам Гринина, поступила на черный рынок в 90-е — злоумышленники обворовывали армейские склады, после чего поджигали их, чтобы скрыть масштабы хищения.

«Основные источники поступления оружия на черный рынок — это военные и полицейские склады, откуда происходят утечки. Уходило в огромном количестве. В настоящее время такое происходит нечасто. Затем идут горячие точки, откуда после окончания боевых действий большое количество оружия ушло на черный рынок. Оружие собирается и хранится долгое время», — объяснил Гринин.

Также сбытом нелегального оружия занимаются «черные копатели» — они ищут старое, например, оставшееся со времен ВОВ, реставрируют его и продают.

«Копаное оружие — его в теории обязаны сдавать в органы, но бывает, что не сдают.

Также популярны самоделки разного вида — из холощеного, списанного, травматического или просто куска железа, из чего только не делают. Изготовить оружие, проще, чем автомобиль. К тому же сейчас есть 3D-принтеры, на которых вполне уже печатали работающие пистолеты», — добавил он.

Самодельное или переделанное оружие занимает около 80% от общего объема нелегального, сообщил «Газете.Ru» источник в правоохранительных органах.

«Остальные 20% — это привозное, контрабандное оружие из-за рубежа. Купить его можно на заказ через посредников либо в даркнете. В случае с интернет-заказами — это сложнее. Оплата теперь только в биткоинах, которые не отследить, раньше была в долларах. Оружие разбирают и прячут в нескольких точках, потом сообщают заказчику геолокации», — пояснил он.

Та же самая схема действует при продаже боеприпасов — таких как мины и гранаты, отметил Гринин. «Их также воровали с военных складов. Есть самодельные СВУ, которые без проблем делаются. Раньше публиковались списки утерянного оружия, в нем было порядка 400 тыс.

единиц и в том числе 71 переносная ракетная установка», — посетовал он.

При этом даже среднюю стоимость товаров разных групп назвать невозможно — она сильно разнится. «Сколько стоит такое оружие, никто не сможет сказать, только продавец и покупатель», — подчеркнул эксперт.

Основные клиенты таких подпольных оружейников — криминальные группировки, отдельные преступники, террористические организации и иногда граждане, которые приобретают оружие для самообороны, но не имеют легального права на ношение.

Также это могут быть коллекционеры огнестрельного оружия, сообщил «Газете.Ru» подполковник запаса МВД России, директор благотворительного учреждения «Право и порядок» Олег Иванников.

«Проблема заключается в том, что многие владельцы незарегистрированного огнестрельного оружия — увлеченные люди. Для них это вроде хобби — они его покупают и обмениваются, модернизируют его. Это необязательно матерые преступники — могут быть вполне приличные люди, которые имеют вес в обществе. Боеприпасы типа мин или гранат такие люди могут использовать при браконьерстве. Причем многие из них гибнут, поскольку не умеют с ними обращаться», — добавил он.

Основной поток оружия, по его словам, идет с Украины либо через границу с Белоруссией, либо российско-украинскую границу.

«Также многие современные западные образцы приходят из Китая — они производят мировые марки вооружения и через границу его поставляют преступным группировкам по всей России», — уточнил бывший правоохранитель Иванников.

Выявление таких преступников — системная работа. «Значительную роль играют сотрудники полиции, которые получают информацию от агентов и осведомителей», — заключил он.

Согласно официальной статистике МВД, в 2018-2020 годах из незаконного оборота было изъято свыше 67 тыс. единиц огнестрельного оружия, 3,3 млн боеприпасов, 14 тыс. взрывных устройств. Свыше 130 тыс. преступлений в сфере оборота оружия зарегистрированы только за три последних года.

Хулиган — за пазухой наган: откуда на черном рынке берется оружие | Статьи

На мусоросжигательном заводе на Пехорской улице в «новой Москве» были найдены 14 гранат для подствольного гранатомета. Опасный груз находился в контейнере на предприятии. Обнаружившие боеприпасы рабочие немедленно вызвали саперов. Это уже не первый случай обнаружения запрещенных предметов в столице. Ранее в апреле при тушении пожара в гараже были найдены гранаты и оружие. Прохожие и пожарные чудом не пострадали от разрыва снарядов. Откуда берутся у людей нелегальные пистолеты с гранатами — в материале «Известий».

В минувшем году было выявлено, по данным портала правовой статистики, 27 452 преступления в сфере оборота оружия и боеприпасов, а к уголовной ответственности за это время привлекли свыше 13 тыс. человек.

Доступность огнестрелов, как считают криминологи, привела к росту преступности, совершаемой с использованием стрелкового оружия и боеприпасов.

Оружие, найденное в результате оперативно-разыскных мероприятий

Фото: РИА Новости/ФСБ РФ

По мнению сенатора Виктора Бондарева, выступавшего в 2018 году за ужесточение законов, касающихся оборота оружия, в числе основных источников пополнения черного рынка — изготовление средств поражения на основе списанного оружия, модификация гражданского оружия в боевые аналоги, контрабанда из‑за рубежа.

Одним из следствий бесконтрольного оборота оружия Бондарев назвал трагедию в Керчи.

«Чтобы не допустить повторения подобных жутких инцидентов, необходимо ужесточить контроль за оборотом оружия и патронов к нему. Законодательство у нас в данной сфере довольно качественное, хотя и оно требует совершенствования, корректировки. Важно также обеспечить его безукоризненное правоприменение. И, конечно, в этом вопросе опять же крайне важна межведомственная координация, работа в команде», — сказал он во время встречи с журналистами.

Он отметил, что часть оружия попадает на соответствующий теневой рынок от криминальных структур или из субъектов РФ, в которых ранее, например, в годы Великой Отечественной войны, велись активные боевые действия.

Эхо войны

Как не печально, но эхо войны до сих пор уносит жизни людей и приносит ущерб, когда найденная на раскопках винтовка или взрывчатка попадает в руки преступников. Слова сенатора подтверждает статистика. Например, по данным воронежской областной прокуратуры, в прошлом году было осуждено 147 человек за незаконный оборот оружия. В группе риска также Волгоградская область (404 дела направлены в суд по тем же составам преступления), Ростовская область (522), Краснодарский край (514) и Дагестан (539).

Оружие и боеприпасы времен ВОВ, найденные в ходе обысков у членов преступной группы, занимавшейся незаконным оборотом оружия на территории РФ

Фото: РИА Новости/ФСБ РФ

Активизировали свою работу копатели в Крыму. В апреле в районе села Бондаренково в Республике Крым были найдены 41 минометная мина, восемь артиллерийских снарядов, 16 ручных гранат. По версии правоохранителей, схрон был сделан группой неизвестных копателей. В то же время на территории крепости Керчь был обнаружен еще один схрон, где были спрятаны девять осколочных авиабомб. Все боеприпасы были обезврежены сотрудниками Минобороны и специалистами регионального ГУ МЧС.

«Известны случаи, когда порох из снарядов времен Великой Отечественной извлекался злоумышленниками для начинения самодельных взрывных устройств и боеприпасов», — рассказал источник «Известий» в силовых структурах.

Автор цитаты

Исторически в России было распространено незаконное ношение оружия, начиная с последней четверти XIX века. Сначала это было связано с обострением революционной борьбы, позже, с 1918-1921 года, хождение стрелкового оружия в народе было связано с Гражданской войной. После Великой Отечественной огнестрелы массово хранили у себя фронтовики, и властям стоило огромных усилий изъять у людей оружие. Новый виток незаконного оборота оружия начался с 1985 года и продолжается до сегодняшнего дня. Наибольшее количество оружия попало в руки криминалитета во время распада Советского Союза — речь идет, в частности, о сотнях тысяч единиц оружия, оставленных Советской армией при выходе со своих баз в республиках Кавказа.

«Насильственные захваты и официальные поставки сделали кавказский регион перенасыщенным оружием, что способствовало обострению как политической, так и криминогенной ситуации в этом регионе. Достаточно вспомнить грузино-абхазский, осетино-ингушский, армяно-азербайджанский конфликты, а также вторжение ваххабитов на территорию Дагестана», — писал в одной из своих научных работ криминолог Сергей Невский. Настоящая трагедия в плане насыщения криминалитета оружием произошла после вывода российских войск с территории современной Чеченской Республики в начале 1990-х годов.

Гостинцы вместо пармезана и хамона

Еще один важный канал поставок оружия в Россию — трансъевропейский. Летом 2018 года сотрудники ФСБ ликвидировали один из коридоров такого трафика. В преступный картель входили жители Москвы, Санкт-Петербурга и Ярославля. У соучастников по разным адресам изъяли почти 400 единиц стрелкового оружия, а также нашли две кустарных мастерских по производству боеприпасов. Среди изъятого: 25 пулеметов, 30 автоматов, 70 пистолетов-пулеметов, 94 карабина, винтовок и ружей, 158 пистолетов и револьверов, два противотанковых ружья. Также в арсеналах были найдены 45-миллиметровый пехотный миномет, гранатомет «АГС-17», взрывное устройство, 15 ручных осколочных гранат, несколько килограммов пороха, глушители, мины и составные части к оружию и боеприпасам.

Причем это не первый склад оружия, обнаруженный силовиками в минувшем году. До этого, в мае, ФСБ обнаружила еще один канал поставки, в котором были задействованы сообщники из 14 регионов страны. Злоумышленники также располагали четырьмя мастерскими для изготовления патронов.

Поставки, как выяснили сыщики, шли из Евросоюза через российско-украинскую границу. Стоит упомянуть, что боевые действия на Донбассе также стали важным источником появления нелегального оружия в нашей стране.

Фото: Global Look Press/Nikolay Gyngazov

Еще одно окно для поставок оружия в Россию и страны СНГ — канал морского торгового судоходства и порты стран Балтии. В качестве тайника используются технические полости судов.

Самой большой популярностью пользуются на черном рынке России европейские марки пистолетов: австрийский «Глок», испанская «Астра», чешский CZ, немецкий «Люгер». Часто поставки этих огнестрелов идут через Польшу. Всплеск таких преступлений пришелся на начало 2000-х годов.

«Особенно неблагоприятное положение сложилось на границах Псковской области с Эстонией. На этом участке проходят крупнейшие железнодорожные и автомобильные магистрали. В приграничных районах северо-западного региона России развита сеть организованных преступных группировок с прочными связями с криминальными структурами Эстонии. Это связано с тем, что на территории этого государства введен упрощенный порядок обращения оружия, что позволяет создавать перевалочные базы по его незаконной продаже», — говорит в научной работе криминолог Ольга Никитина.

В марте 2017 года ФСБ пресекла работу международного преступного синдиката, переправлявшего в Россию оружие из США при помощи почтовых отправлений. Сеть была разбросана по всей стране: Москва, Йошкар-Ола, Иркутск, Улан-Уде. Среди изъятого числятся штурмовые винтовки американского производства, австрийские пистолеты, карабины и ружья.

Восток дело тонкое

Еще один канал поставки оружия, преимущественно стрелкового, — из Китая через Азербайджан. По данным военного обозревателя Александра Хроленко, поставляются заводские и подпольно изготовленные образцы (по сниженным ценам). Как правило, преступники имеют связи в государственных структурах на территории СНГ, это осложняет работу пограничников и таможенников.

Фото: Depositphotos

Грузия, Азербайджан и Армения удобны для поставок незаконных грузов из-за особенностей ландшафта: граница с Россией проходит по горной местности, которую трудно контролировать пограничникам. Через эти тропы в Россию попадает оружие с полей боя на Ближнем Востоке.

ЧИТАЙТЕ ТАКЖЕ

Цены на черном рынке оружия в Бельгии выросли в 2-3 раза, сообщили СМИ

https://ria. ru/20170810/1500112715.html

Цены на черном рынке оружия в Бельгии выросли в 2-3 раза, сообщили СМИ

Цены на черном рынке оружия в Бельгии выросли в 2-3 раза, сообщили СМИ — РИА Новости, 10.08.2017

Цены на черном рынке оружия в Бельгии выросли в 2-3 раза, сообщили СМИ

Цены на оружие на черном рынке в Бельгии подскочили в 2-3 раза после терактов 2015-2016 годов в Брюсселе и Париже, сообщила в четверг газета Libre Belgique со… РИА Новости, 10.08.2017

2017-08-10T10:18

2017-08-10T10:18

2017-08-10T10:23

/html/head/meta[@name=’og:title’]/@content

/html/head/meta[@name=’og:description’]/@content

https://cdnn21.img.ria.ru/images/139705/84/1397058442_0:158:3008:1850_1920x0_80_0_0_9b8e2c6b0c0e5b380ef90fb0ff435e94.jpg

бельгия

РИА Новости

[email protected]

7 495 645-6601

ФГУП МИА «Россия сегодня»

https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/

2017

РИА Новости

internet-group@rian. ru

7 495 645-6601

ФГУП МИА «Россия сегодня»

https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/

Новости

ru-RU

https://ria.ru/docs/about/copyright.html

https://xn--c1acbl2abdlkab1og.xn--p1ai/

РИА Новости

[email protected]

7 495 645-6601

ФГУП МИА «Россия сегодня»

https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/

https://cdnn21.img.ria.ru/images/139705/84/1397058442_166:0:2843:2008_1920x0_80_0_0_01427f4d599ea02af16bb0347640648b.jpg

РИА Новости

[email protected]

7 495 645-6601

ФГУП МИА «Россия сегодня»

https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/

РИА Новости

[email protected]

7 495 645-6601

ФГУП МИА «Россия сегодня»

https://xn--c1acbl2abdlkab1og.xn--p1ai/awards/

в мире, бельгия

Подход с разделением и слиянием для разложения по сингулярным значениям крупномасштабных матриц

Stat Interface. Авторская рукопись; доступно в PMC 2019 22 августа.

Опубликован в окончательной отредактированной форме как:

PMCID: PMC6706079

NIHMSID: NIHMS996651

Faming Liang

Департамент биостатистики, Университет Флориды, Гейнсвилл, штат Флорида, 32611 @gnailaf

Runmin Shi

Департамент статистики Университета Флориды, Гейнсвилл, Флорида 32611

Qianxing Mo

Департамент медицины и Дэн Л.Онкологический центр Дункана Медицинский колледж Бейлора, Хьюстон, Техас 77030

Фаминг Лян, Департамент биостатистики, Университет Флориды, Гейнсвилл, Флорида 32611, ude.lfu@gnailaf ;.

Abstract

Мы предлагаем новый алгоритм SVD, основанный на стратегии разделения и слияния, который обладает невероятно параллельной структурой и, таким образом, может быть эффективно реализован на распределенной или многоядерной машине. Новый алгоритм также может быть реализован последовательно для онлайн-анализа собственных значений. Новый алгоритм особенно подходит для проблем с большими данными: его смущающая параллельная структура делает его пригодным для использования для проверки функций, в то время как это было за пределами возможностей существующих параллельных алгоритмов SVD.

Ключевые слова: Feature Screening, Parallel Computing, Online-Learning, Singular Value Decomposition

1. ВВЕДЕНИЕ

Разложение по сингулярным числам (SVD) — ключевая операция линейной алгебры, лежащая в основе многих статистических методов и методов интеллектуального анализа данных. . Например, анализ главных компонентов (PCA), который является частным случаем SVD, является основным инструментом уменьшения размерности и играет важную роль в анализе данных большой размерности. Теоретические свойства PCA для задач большой размерности вызвали большой интерес в недавней литературе, см. E.г., Джонстон (2001), Пол (2007) и Ли и др. . (2010, 2014). В интеллектуальном анализе данных SVD широко используется для кластеризации, скрытого семантического анализа, обнаружения аномалий, совместной фильтрации, компьютерных рекомендаций и многого другого. См. Patterson et al. (2006), Deerwester et al. (1990), Ide and Kashima (2004), Eagle and Pentland (2009) и Sarwar et al. (2002) для некоторых примеров.

Несмотря на свою популярность, SVD часто ограничен своей высокой вычислительной сложностью, что делает его непрактичным для массивных наборов данных.Однако на практике все чаще встречаются массивные наборы данных, многие из которых требуют оперативности в реальном времени. Для ускорения вычисления SVD были предложены некоторые методы аппроксимации. Например, Sarwar et al. (2002) предложили алгоритм инкрементного SVD, основанный на методе проецирования, который не является точным, поскольку результирующее разложение матрицы больше не является ортогональным. Недавно также были изучены некоторые методы аппроксимации SVD на основе выборки, см., Например, Deshpande and Vempala (2006) и Holmes et al.(2008).

В этой статье мы предлагаем алгоритм SVD, основанный на стратегии разделения и слияния. Новый алгоритм обладает поразительно параллельной структурой и, таким образом, может быть эффективно реализован на распределенной или многоядерной машине. Новый алгоритм также может быть реализован последовательно для онлайн-анализа собственных значений. По сравнению со стандартным алгоритмом SVD новый алгоритм может привести к значительной экономии времени вычислений при параллельной или последовательной реализации. По сравнению с существующими параллельными алгоритмами SVD, см. E.г. Берри и др. (2005) для обзора, новый алгоритм легко реализовать на основе существующего алгоритма SVD. Кроме того, его можно ускорить с помощью существующих параллельных алгоритмов SVD.

Остальная часть этого документа организована следующим образом. В разделе 2 описан предлагаемый алгоритм. В разделе 3 обсуждаются два применения предложенного алгоритма: проверка характеристик и собственное обучение в режиме онлайн. В разделе 4 представлены некоторые численные результаты. Раздел 5 завершает статью кратким обсуждением.

2. АЛГОРИТМ SVD РАЗДЕЛЕНИЯ И СЛИЯНИЯ

Для матрицы m × n X с рангом r X , при m ≥ n , разложение по сингулярным значениям определяется как

где U и V — ортогональные матрицы с размерами м × м и n × n соответственно; и D представляет собой прямоугольную диагональную матрицу m × n с точно r X ненулевыми диагональными элементами. Столбцы U и V представляют ортогональные собственные векторы XX T и X T X соответственно. Для удобства запишем U = ( u 1 , …, u m ) и V = ( v 1 , …, v n ), где u i — это m-вектор, а v i n -вектор. u i также называется левым собственным вектором, а v i правым собственным вектором.

Существует множество алгоритмов SVD, и наиболее часто используется один из них Голуб и Райнш (1970). В оставшейся части этой статьи мы будем использовать SVD-алгоритм Голуба-Рейнша в качестве стандартного алгоритма для демонстрации подхода разделения и слияния. Обратите внимание, что подробный алгоритм решения проблемы СВД здесь не обсуждается. Мы только показываем, что стратегия разделения и слияния может значительно улучшить производительность стандартного алгоритма SVD.

Одним из способов количественной оценки объема работы, связанной с вычислением, является подсчет флопов. Флоп — это сложение, вычитание, умножение или деление с плавающей запятой. Количество флопов данного алгоритма обычно получается суммированием количества арифметических операций, связанных с наиболее глубоко вложенными операторами, и мы будем обозначать эту сумму как вычислительную сложность. Ссылаясь на Голуба и Ван Лоана (2013), SVD-алгоритм Голуба-Рейнша для матрицы m × n имеет вычислительную сложность 4 m 2 n + 8 mn 2 + 9 n 3 , чтобы получить полные компоненты U , D и V .Однако в некоторых приложениях требуются только первые n столбцов из U , что означает матрицу Ū = [ U (, 1: n ), 0 m × (m − n) ], а алгоритм Голуба-Рейнша SVD имеет только вычислительную сложность 14 mn 2 +8 n 3 для получения сокращенных компонентов Ū , D и V .

2.1. Алгоритм

Чтобы описать предложенный алгоритм, мы сначала рассмотрим сценарий, в котором m намного больше, чем n , но n не очень большое.Обратите внимание, что мы всегда можем предположить, что m больше, чем n ; в противном случае, для низкой вычислительной сложности, SVD может быть выполнено для X T . В этом предположении мы можем разделить X по строкам на несколько подматриц:

где s обозначает количество подматриц. Пусть Xi = U¯iDiViT обозначает SVD X i .

Определить

U˜ = (U¯1U¯2⋱U¯s), Y = (D1V1TD2V2T ⋮ DsVsT).

Пусть Y = UyDyVyT обозначает SVD Y . Для удобства мы называем Y комбинированной собственной матрицей. Тогда легко проверить, что

который образует SVD размером X . Таким образом, мы имеем следующий алгоритм.

Алгоритм 1. (
SVD с разделением и слиянием: только разбиение по строкам )
  1. Разделение X по строкам на X = [X1T,…, XsT] T, , где каждый X i имеет примерно одинаковый размер .

  2. Выполнить SVD для каждого Xi: Xi = U¯iDiViT.

  3. Выполнить SVD для комбинированной собственной матрицы Y = [V1D1,…, VsDs] T: Y = UyDyVyT,

  4. Выход ŨU y , D y и три V 6 в качестве трех компоненты СВД Х .

Алгоритм требует, чтобы все X i имели примерно одинаковый размер.Это минимизирует время ожидания между различными узлами или ядрами компьютера и, таким образом, оптимизирует производительность алгоритма.

2.2. Анализ временной сложности

Чтобы проанализировать временную сложность алгоритма 1, мы предполагаем, что n = o ( m ) и каждый X i имеет одинаковый ранг r , т. Е. r 1 = r 2 = ⋯ = r с = r . Следует отметить, что при формировании объединенной собственной матрицы Y размером m × n каждый DiViT содержит в своем дне ms − r нулевых векторов-строк. То есть матрица Y содержит только sr ненулевых векторов-строк. Чтобы увидеть, что временная сложность для решения SVD на Y эквивалентна решению той же задачи на матрице, которая создается только ее sr ненулевыми векторами-строками, мы положим = RY как перестановка в строках для Y так, чтобы его первые sr векторов строк были ненулевыми, а m — sr нулевых векторов строк находились внизу.Решив задачу SVD для его верхней ненулевой части, мы можем получить

Y = RY˜ = R [U DVT0] = R [U00Im − sr] [D0] VT,

где перестановка в строке может быть достигнута с помощью тонкой структуры данных, и нет никакой дополнительной работы, необходимой для получения левой матрицы собственных векторов R diag ( U , I m − sr ).

2.2.1. Параллельная реализация

Временная сложность алгоритма 1 определяется выражением

Tparallel = [14msn2 + 8n3] + [4s2r2n + 8srn2 + 9n3] + [srn + m2 (2n − 1)] = (2m2 + 4s2r2 + sr) n + (14ms + 8sr) n2 + 17n3 − m2,

(2)

где первая скобка [·] соответствует временной сложности шага ( b ), вторая скобка [·] соответствует временной сложности SVD ( Y ), выполненной на шаге (c), член srn в третьей скобке [·] — временная сложность формирования комбинированной собственной матрицы Y = [ V 1 D 1 , , V s D s ], а термин m 2 (2 n — 1) относится к временной сложности вычислений ŨU y с учетом разреженной структуры Ũ .По сравнению с 4 m 2 n + 8 mn 2 + 9 n 3 , временной сложностью стандартного алгоритма SVD, легко увидеть, что до тех пор, пока 7m4s + 2sr + n е. r D i имеет меньшее количество ненулевых строк, чем X i , то новый алгоритм сократит время вычисления SVD.Отметим, что это всегда верно, если m > sn . Этот анализ предлагает выбрать s < m / n .

Как следует из (2), если разбиение в алгоритме 1 выполняется по столбцам, то ведущий член T параллельный будет 4 м 2 sr . Далее, если r н / с , то предложенный алгоритм не даст большой экономии в вычислениях. По этой причине мы рассматриваем только разбиение по строкам.

2.2.2. Последовательная реализация

Интересно отметить, что даже в последовательной реализации алгоритм 1 может извлечь выгоду из стратегии разделения и слияния. В этом случае временная сложность нового алгоритма составляет

Tserial = [s (14msn2 + 8n3)] + [4s2r2n + 8srn2 + 9n3] + [srn + m2 (2n − 1)] = (2m2 + 4s2r2 + sr) n + (14m + 8sr) n2 + (8s + 9 ) п3 − м2,

(3)

где первая скобка [·] учитывает общую временную сложность SVD ( X 1 ),…, SVD ( X s ). Поскольку r ≤ min { m / s , n } всегда верно, мы имеем

Tserial≤ − m2 + 2m2n + (s + 14m) n2 + (4s2 + 16s + 9) n3≤2m2n + 14mn2 + (4s2 + 17s + 9) n3.

Следовательно, если выполняется следующее неравенство,

4s2 + 17s + 6mn − 2 (mn) 2 <0,

(4)

затем T серийный <4 m 2 n +8 mn 2 +9 n 3 . Например, если m / n = 10, то (4) может быть выполнено для 2 ≤ с ≤ 4; и если m / n = 100, то (4) может быть выполнено для 2 ≤ s ≤ 67.Следовательно, при соответствующем выборе с новый алгоритм обеспечивает бесплатное улучшение времени вычислений (без каких-либо требований к компьютерному оборудованию) по сравнению со стандартным алгоритмом SVD.

2.3. SVD для общих крупномасштабных матриц

В сценарии, когда n большое, а m маленькое, мы можем запустить алгоритм 1 на X T . В сценарии, когда и n , и m являются большими, мы можем разделить X как в строках, так и в столбцах на подматрицы s × k ; это,

X = (X11X12 ⋯ X1kX21X22 ⋯ X2k ⋮⋮⋮⋮ Xs1Xs2 ⋯ Xsk),

(5)

где X ij примерно одинакового размера.Тогда у нас есть следующий алгоритм SVD общих крупномасштабных матриц.

Алгоритм 2. (
SVD с разделением и слиянием )
  1. Раздел X в (5) . Пусть Xj = (X1jT,…, XsjT) T обозначают j-й столбец блочной матрицы .

  2. Применить Алгоритм 1 в каждую колонку X j и получаем SVD Xj = UjDjVjT для j = 1,…, k . Пусть Ṽ = diag ( V i , ⋯, V k ) обозначает блочную диагональную матрицу .

  3. Пусть Z = (U 1 D 1 ,…, U k D k ) будет объединенной собственной матрицей и получаем СВД Z = УзДзВзТ .

  4. Выход U z , D z и ṼV z как три компонента SVD X .

Пусть n j обозначает номер столбца X j , и пусть r j обозначает ранг D 6 j 6 j j 6 j 6 j 6Если r j намного меньше, чем n j для каждого j , то новый алгоритм может привести к значительной экономии времени вычислений по сравнению со стандартным алгоритмом SVD, как стандартным. Алгоритм SVD чувствителен ко времени к номеру столбца. Чтобы увидеть это более ясно, предположим, что мы можем равномерно разделить X на подматрицы s × k , и каждый компонент столбца X j имеет одинаковый ранг r X , я. е., r 1 = r 2 = ⋯ = r s = r X и каждый подкомпонент X ij также имеет такой же ранг r , т.е. r 11 = r 12 = ⋯ = r sk = r .

Отсюда, следуя (2), временную сложность для шага в параллельном случае можно записать как

Tstep (b) = [k (2m2 + 4s2r2 + sr) nk + (14ms + 8sr) (nk) 2 + 17 (nk) 3 − m2] = (2m2 + 4s2r2 + sr) n + (14ms + 8sr) n2k + 17n3k2 − km2.

Еще раз, матрица Z содержит только kr X значащих ненулевых векторов-столбцов, а временная сложность решения задачи SVD составляет 4m 2 kr X + 8мк 2 r X 2 + 9 k 3 r X 3 . Следовательно, мы имеем

Шаг T (c) = mkrX + 4m2krX + 8mk2rX2 + 9k3rX3.

Добавляя временную сложность для вычисления мкВ z , можно, наконец, получить

Ttotal = Tstep (b) + Tstep (c) + n2 (2nk − 1).

Если рассматривать члены только третьего порядка, мы имеем Ttotal − T step (c) ~ 2m2n + 14skmn2 + 17 + 2kk2n3, при условии, что r мало. По сравнению с временной сложностью стандартного алгоритма SVD, 4 m 2 n +8 mn 2 + 9 n 3 , легко увидеть, что маленький r X будет производить меньший T step ( c ) и, следовательно, меньший T всего .Чтобы быть более точным, если 2kr X , ведущий член T всего будет меньше 4 m 2 n и алгоритм 2 потенциально будет приводят к некоторой экономии времени вычислений. Фактически, как объяснено в разделе 3.1, это часто имеет место в практических приложениях SVD.

3. ДВА ПРИМЕНЕНИЯ ПРЕДЛАГАЕМОГО АЛГОРИТМА

В этом разделе мы обсуждаем два приложения предложенного алгоритма: скрининг признаков и собственное обучение в режиме онлайн.i, количество выбранных функций из X i может быть намного меньше, чем n i , и, таким образом, объединенная собственная матрица Z в алгоритме 2 может иметь гораздо меньший столбец номер чем n . В результате сокращается временная сложность SVD. Отметим, что для модели с пиковыми собственными значениями (Johnstone, 2001), где небольшое количество собственных значений совокупности существенно больше остальных, время вычисления SVD может быть существенно сокращено с помощью скрининга признаков.

3.2. Онлайн-обучение собственных нужд

Одним из важных приложений предложенного алгоритма является онлайн-анализ собственных значений. Предположим, что данные поступают в потоке, то есть общее количество наблюдений m фиксировано, но количество переменных n увеличивается. Пусть X 1: t обозначает данные, собранные до времени t , и пусть X t + 1 обозначают данные, собранные в момент времени t + 1. Пусть X1: t = U1: tD1 : tV1: tT обозначает SVD X 1: t .Тогда SVD X 1: t + i может быть получен рекурсивно по следующему алгоритму.

Алгоритм 3. (
Собственное онлайн-обучение )
  1. Найдите SVD Xt + 1 = Ut + 1Dt + 1Vt + 1T, и пусть Ṽ = diag ( V 1: t , V t + 1 ) будет диагональной блочной матрицей .

  2. Пусть W = ( U 1: t D 1: t , U t + 1 D t + 1 ) и найдите SVD W = UwDwVwT.

  3. Выход U 1: t + 1 = Uw , D 1: t + 1 = D w и V 1: t + 1 = ṼV w как три компонента SVD X 1: t + 1 .

Для этого алгоритма фильтрацию признаков можно также применить на шаге (b), чтобы уменьшить количество столбцов W . Этот алгоритм может иметь множество применений для данных потокового типа, например.g., пространственно-временные данные о погоде, изученные Onorati et al. (2013), данные компьютерных систем, изученные в Idé and Kashima (2004), и данные мобильной связи, изученные в Akoglu and Faloutsos (2010). Для этих исследований онлайн-алгоритм собственного обучения может существенно повысить вычислительную эффективность задействованного анализа собственных значений.

4. ЧИСЛЕННЫЕ ЭКСПЕРИМЕНТЫ

4.1. Смоделированный пример

Мы создали набор данных из трех групп населения. Набор данных состоит из m = 100 выборок и n = 500 000 переменных.Среди 100 образцов 50 относятся к группе 1, 30 — к группе 2 и 20 — к группе 3. Образцы в каждой группе моделировались путем создания сначала ее среднего вектора μ g ( g = 1,2,3), для которого каждый элемент был отрисован случайным образом с заменой из набора {−0,3, 0, 0,3}, а затем отрисован независимо от многомерного распределения Гаусса MVN ( μ g , 4 I n ), где I n обозначает единичную матрицу n × n .Аналогичный пример был использован Ли и др. . (2010) для демонстрации поведения оценки главного компонента (PC) в условиях высокой размерности.

Для этого набора данных, поскольку n намного больше, чем m , мы фактически работали с X T для нахождения декомпозиции. Мы реализовали алгоритм 1 как параллельно, так и последовательно. Параллельный означает, что шаг (b) выполняется параллельно, а последовательный означает, что шаг (b) выполняется последовательно.Параллельная версия была реализована на многоядерном компьютере (высокопроизводительная рабочая станция Dell Precision T7610, процессор 2,7 ГГц) путем вызова пакета parallel в R . Серийная версия была реализована на том же компьютере в R , но с использованием только одного ядра. Для сравнения мы также применили стандартный SVD в R к набору данных. В штатном СВД использовалось только одно ядро. показывает затраченное время, используемое тремя алгоритмами. Как и ожидалось, предлагаемый алгоритм может быть намного быстрее стандартного алгоритма SVD в его параллельной реализации, а также быстрее, чем стандартный алгоритм SVD в его последовательной реализации из-за преимущества стратегии разделения и слияния.Примечательно, что когда с = 20, последовательная реализация может быть на 20% быстрее, чем стандартный алгоритм SVD.

Таблица 1.

Истекшее время, используемое стандартным, параллельным и последовательным алгоритмами для декомпозиции смоделированного набора данных: s обозначает количество подматриц в разделе, а также количество ядер, используемых в параллельной реализации. Среднее и стандартное отклонение (SD) прошедшего времени (в секундах на высокопроизводительной рабочей станции Dell Precision T7610, 2.Процессор 7 ГГц) вычисляются путем усреднения результатов пяти независимых прогонов одного и того же набора данных.

9123
Алгоритм Стандартный параллельно Последовательный
с 1 5 10 20
Среднее значение 10,58 2,94 2,14 2. 05 1,42 10,01 8,92 8,02 8,89
SD 0,02 0,03 0,005 0,005 9123 9123 9123 0,02 0,02

4.2. SVD для рекомендательных систем

Рекомендательные системы — это важнейший инструмент электронной коммерции в Интернете, который применяет методы анализа данных, чтобы помочь клиентам найти, какие продукты они хотели бы приобрести. = UkDkVkT, что является наиболее близким приближением к X , где k обозначает ранг матрицы аппроксимации. Deerwester et al. (1990) и Берри и др. (1995) указали, что приближение низкого ранга лучше, чем исходные данные из-за фильтрации небольших сингулярных значений, которые вносят «шум» в отношения продукт-покупатель. Как показано в Sarwar et al. (2000) подход на основе SVD дает результаты, которые в большинстве случаев лучше, чем традиционный алгоритм совместной фильтрации, когда он применяется к набору данных Movie.

Однако, как указано Sarwar et al. (2002) подход на основе SVD страдает одним серьезным ограничением, которое делает их менее подходящими для крупномасштабных данных; этап разложения матрицы является очень дорогостоящим в вычислительном отношении и является основным препятствием на пути к достижению высокой масштабируемости. Чтобы преодолеть это узкое место, были использованы некоторые приближенные алгоритмы SVD, например, алгоритм инкрементного SVD.

Чтобы продемонстрировать преимущество предложенного алгоритма, мы применили предложенный алгоритм к набору данных MovieLens с 10 677 фильмами и 71 567 клиентами.Набор данных загружен по адресу http://grouplens.org/datasets/movielens/. На рис. 4.2 показаны собственные значения вспомогательного набора данных с 894 клиентами. Это указывает на то, что данные содержат очень мало важных функций. Поэтому мы применили к этому набору данных метод отбора признаков, описанный в разделе 3.1. В нашей реализации метода скрининга признаков алгоритм SVD разделения и слияния выполнялся в четыре этапа, как показано ниже.

  • Шаг 1. Разделите матрицу продукта × клиентов по столбцам на 80 подматриц.Запустите SVD параллельно для каждой подматрицы и аппроксимируйте каждую подматрицу, используя матрицу низкого ранга с ошибкой аппроксимации ϵ 1 = 0,2. Этот шаг приводит к объединенной собственной матрице размером 10 677 × 15089. В среднем для каждой подматрицы было выбрано 188,6 признаков.

  • Шаг 2: Разделите собственную матрицу, полученную на шаге 1, по столбцам на 40 подматриц. Запустите SVD параллельно для каждой подматрицы и аппроксимируйте каждую подматрицу, используя матрицу низкого ранга с ошибкой аппроксимации ϵ 2 = 0.2. Этот шаг приводит к объединенной собственной матрице размером 10 677 × 5 470.

  • Шаг 3. Разделите собственную матрицу, полученную на шаге 2, по столбцам на 20 подматриц. Запустите SVD параллельно для каждой подматрицы и аппроксимируйте каждую подматрицу, используя матрицу низкого ранга с ошибкой аппроксимации ϵ 3 = 0,2. Этот шаг приводит к объединенной собственной матрице размером 10, 677 × 1, 595.

  • Шаг 4: Запустите SVD для собственной матрицы, полученной на шаге 3, и получите аппроксиматор низкого ранга X .

Стоимость алгоритма 193,7 секунды (прошедшее время) на рабочей станции Dell Precision T7610. Полученный матричный аппроксиматор имеет ошибку аппроксимации ϵ = 0,49. Как показано на рис. 4.2, точность такого приближения все еще приемлема. Обратите внимание, что если мы запустим алгоритм 1 напрямую с ошибкой аппроксимации = 0,49, это приведет к объединенной собственной матрице размером более 10 677 × 3000, а стандартный алгоритм SVD для такой матрицы по-прежнему занимает довольно много времени.Для сравнения мы также запустили стандартный алгоритм SVD для исходных данных на том же компьютере. Это стоило 4779,8 секунды (затраченное время), что примерно в 24,7 раза больше, чем у предложенного алгоритма.

5. ОБСУЖДЕНИЕ

В этой статье мы предложили подход разделения и слияния для разложения по сингулярным значениям для крупномасштабных матриц. Предлагаемый подход может быть реализован как на распределенных, так и на серийных машинах. В любом случае это может привести к значительной экономии времени вычислений.Мы также обсудили два применения предложенного подхода: скрининг признаков и онлайн-анализ собственных значений. Мы ожидаем, что предложенный подход можно будет чаще применять для решения проблем с большими данными.

Для скрининга признаков одной из важных проблем является обнаружение сигналов, то есть идентификация признаков ( u i , v i ), которые представляют истинные сигналы. Обнаружение сигналов — давняя проблема в анализе главных компонент, и большинство существующих подходов основаны на собственных пропорциях.Недавно для случая, когда X является случайной матрицей с нормально распределенными элементами, Надакудити и Эдельман (2008) предложили подход к проверке гипотез, основанный на результатах асимптотического распределения собственных значений. Лян (2007) предложил подход, основанный на проверке структуры собственных векторов. Представляет интерес дальнейшее исследование в этом направлении.

В анализе главных компонентов часто представляет интерес предсказать оценки главных компонентов для новых наблюдений на основе обучающих выборок.Для матрицы X переменной × выборка оценки главных компонентов определяются как проекция X T U , где U u -собственный вектор X . Ли и др. (2010) продемонстрировали, что наивные подходы к прогнозированию оценок основных компонентов могут быть существенно смещены в сторону 0 при анализе больших матриц, для которых количество переменных намного больше, чем количество выборок. Алгоритм онлайн-собственного обучения обеспечивает естественный способ решения проблемы смещения: мы предлагаем заменить u-собственный вектор обучающих данных на полные данные (включая обучение и тестирование) при вычислении прогнозируемых оценок главных компонентов.Онлайн-алгоритм собственного обучения очень эффективен для обновления u-собственного вектора на основе тестовых данных. Более того, из теоремы 2 Ли и др. (2014), что полученные таким образом оценки основных компонентов согласованы.

Отметим, что параллельные алгоритмы SVD были разработаны в литературе, см., Например, Берри и др. . (2005) для обзора. Основное различие между алгоритмом SVD разделения и слияния и существующими параллельными алгоритмами SVD заключается в том, что первый обладает поразительно параллельной структурой, что делает его особенно подходящим для чрезвычайно крупномасштабных матриц. Как обсуждалось в разделе 3.1, различные подматрицы X и могут даже храниться на разных компьютерах, и проверка характеристик может выполняться для каждой подматрицы отдельно. Кроме того, алгоритм SVD разделения и слияния реализуется последовательно, что делает его особенно подходящим для онлайн-анализа потоковых данных. Существующие параллельные алгоритмы SVD не обладают такими привлекательными особенностями.

Наконец, отметим, что алгоритм SVD, основанный на стратегии разделения и слияния, также был разработан в литературе, подробности этого алгоритма см. В Tzeng (2013).Основные различия между алгоритмом Ценг и нашим алгоритмом заключаются в том, что первый работает через процедуру PCA, и его эффективность зависит от многих факторов, таких как оценочный ранг матрицы и способ разделения данных. Когда оценочный ранг меньше истинного ранга матрицы, алгоритм Ценга может произвести только приблизительный SVD. Если данные не разделены должным образом, например, данные подмножества не извлекаются случайным образом из всего набора данных или его размер слишком мал, результирующий SVD также является приблизительным, см. Tzeng et al.(2008) для наглядного примера. Кроме того, эффективность алгоритма Ценг зависит от ранга матрицы. Если ранг r ≈ min (m, n), то алгоритм Ценга будет иметь почти такую ​​же вычислительную сложность, что и исходный алгоритм SVD. По сравнению с алгоритмом Ценга наш алгоритм точен; он всегда производит точный SVD независимо от ранга матрицы и способа разделения данных. Кроме того, эффективность нашего алгоритма меньше зависит от истинного ранга матрицы. Как следует из (2) и (3), наш алгоритм может быть более эффективным, чем исходный алгоритм SVD, для широкого диапазона вариантов разделения данных.С точки зрения вычислительной сложности алгоритм Цзэна может быть лучше нашего только при r ≪ min ( m , n ). В этом случае он может получить некоторую вычислительную эффективность с помощью процедуры PCA, которая работает с ковариационной матрицей размером ( ) для каждого подмножества данных.

Слева: собственные значения вспомогательного набора данных с 894 клиентами. Справа: собственные пропорции соответствуют собственным значениям, показанным на левом графике, где собственная пропорция определяется как di2 / ∑i = 1rdi2, а d i — это i -е сингулярное значение вспомогательного набора данных .

БЛАГОДАРНОСТИ

Авторы благодарят редактора, помощника редактора и двух рецензентов за их комментарии, которые привели к значительному улучшению данной статьи. Исследование Ляна было частично поддержано грантами Национального научного фонда DMS-15052926 и DMS-15060903.

Информация для авторов

Фаминг Лян, Департамент биостатистики, Университет Флориды, Гейнсвилл, Флорида, 32611, ude.lfu@gnailaf ..

Рунмин Ши, Департамент статистики, Университет Флориды, Гейнсвилл, Флорида 32611.

Цяньсин Мо, медицинский факультет и онкологический центр Дэна Л. Дункана, Медицинский колледж Бейлора, Хьюстон, Техас, 77030.

СПРАВОЧНАЯ ИНФОРМАЦИЯ

  • Akoglu L и Faloutsos C (2010). Обнаружение событий во временных рядах графиков мобильной связи. В материалах конференции по армейской науке, стр. 18–25. [Google Scholar]
  • Берри М.В., Дюмэ С.Т. и О’Брейн Г.В. (1995). Использование линейной алгебры для интеллектуального поиска информации. SIAM Review, 37, 573–595. [Google Scholar]
  • Берри М.В., Мезер Д., Филипп Б. и Самех А. (2005).Параллельные алгоритмы разложения по сингулярным числам. В Справочнике по параллельным вычислениям и статистике (ред. Контогиоргес Э. Дж.), Chapman & Hall / CRC Press, Лондон, стр. 117–161. [Google Scholar]
  • Deerwester S, Dumais ST, Furnas GW, Landauer TK, and Harshman R (1990). Индексирование методом скрытого семантического анализа. Журнал Американского общества информационных наук, 41, 391–407. [Google Scholar]
  • Deshpande A and Vempala S (2006). Адаптивная выборка и быстрое приближение матрицы низкого ранга в приближении, рандомизации и комбинаторной оптимизации (ред.J. Diaz, K. Jansen, J. D. P. Rolim, U. Zwick), Lecture Notes in Comput. Sci. 4110, Springer: Berlin, стр. 292–303. [Google Scholar]
  • Eagle N и Pentland AS (2009). Собственное поведение: определение структуры в рутине. Поведенческая экология и социобиология, 63, 1057–1066. [Google Scholar]
  • Голуб Г. Х. и Райнш К. (1970). Разложение по сингулярным числам и решение методом наименьших квадратов. В Нумер. Математика 14. С. 403–420. [Google Scholar]
  • Голуб Г.Х. и Ван Лоан К.Ф. (2013 г.). Матричные вычисления (четвертое издание).Балтимор: Издательство Университета Джона Хопкинса. [Google Scholar]
  • Гупта Д., Голдберг К. (1999). Jester 2.0: алгоритм линейной совместной фильтрации, применяемый к шуткам. В Proc. ACM SIGIR, стр. 291–292. [Google Scholar]
  • Холмс М.П., ​​Грей А.Г. и Исбелл К.Л. (2008). Quic-SVD: Быстрый SVD с использованием косинусных деревьев. Прогресс в области систем обработки нейронной информации 21. С. 673–680. [Google Scholar]
  • Ide T. и Kashima H (2004). Обнаружение аномалий в компьютерных системах с помощью собственного подпространства В материалах 10-й Международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных, ACM Press, стр. 440–409. [Google Scholar]
  • Джонстон И.М. (2001). О распределении наибольшего собственного значения в анализе главных компонент. Аня. Статист, 29, 295–327. [Google Scholar]
  • Ли С., Цзоу Ф. и Райт Ф. (2010). Конвергенция — это предсказание оценок основных компонентов в многомерных условиях. Аня. Статист, 38, 3605–3629. [Бесплатная статья PMC] [PubMed] [Google Scholar]
  • Lee S., Zou F, and Wright F (2014). Сходимость собственных значений выборки, собственных векторов и оценок главных компонентов для данных сверхвысокой размерности.Биометрика, 101, 484–490. [Бесплатная статья PMC] [PubMed] [Google Scholar]
  • Лян Ф (2007). Использование пробит-трансформации на основе SVD в кластерных профилях экспрессии генов. Вычислительная статистика и анализ данных, 51, 6355–6366. [Google Scholar]
  • Надажудити Р.Р. и Эдельман А. (2008 г.). Детектирование сигналов большой размерности в белом шуме на основе собственных значений выборки с использованием относительно небольшого количества выборок. IEEE Trans. по обработке сигналов, 56, 2625–2638. [Google Scholar]
  • Онорати Р., Сэмпсон П. и Гутторп П. (2013 г.).Пространственно-временная модель на основе SVD для анализа среднесуточной температуры в регионе Сицилии. Журнал экологической статистики, 5, 1–19. [Google Scholar]
  • Паттерсон Н., Прайс А.Л. и Райх Д. (2006). Структура населения и собственный анализ. PLoS Genetics, 2: e190. [Бесплатная статья PMC] [PubMed] [Google Scholar]
  • Paul D (2007). Асимптотика собственной структуры выборки для крупноразмерной ковариационной модели с пиками. Статист. Синица, 17, 1617–1642. [Google Scholar]
  • Сарвар Б.М., Карипис Г., Констан Дж. А. и Ридл Дж. Т. (2000).Применение уменьшения размерности в рекомендательной системе — пример из практики ACM Web-Mining для E-Commerce Workshop, ACM Press. [Google Scholar]
  • Сарвар Б.М., Карипис Дж., Констан Дж. А. и Ридл Дж. Т. (2002). Алгоритмы инкрементальной декомпозиции сингулярных значений для высокомасштабируемых рекомендательных систем. В материалах 5-й Международной конференции по компьютерам и информационным технологиям, ACM Press, стр. 27–28. [Google Scholar]
  • Tzeng J (2013). Разделение и объединение сингулярного разложения для крупномасштабной матрицы.Журнал прикладной математики, том 2013, идентификатор статьи 683053. [Google Scholar]
  • Цзэн Дж, Лу ХХ-С и Ли В-Х (2008). Многомерное масштабирование для больших наборов геномных данных. BMC Bioinformatics, 9: 179. [Бесплатная статья PMC] [PubMed] [Google Scholar]

Разложение сингулярных значений и его визуализация в JSTOR

Абстрактный

Разложение по сингулярным значениям (SVD) — полезный инструмент функционального анализа данных (FDA). По сравнению с анализом главных компонентов (PCA), SVD является более фундаментальным, потому что SVD одновременно предоставляет PCA в пространствах строк и столбцов.Мы сравниваем SVD и PCA с точки зрения FDA и расширяем обычную SVD до вариаций, учитывая разные центрирования. Для выбора подходящего центрирования на практике предлагается обобщенный график осыпи. Представлены несколько полезных матричных представлений компонентов SVD для изучения различных функций данных, включая графики поверхности SVD, графики изображений, кривые фильмов и ролики вращения. Эти методы визуализируют информацию о столбцах и строках двусторонней матрицы одновременно, связывают матрицу с соответствующими кривыми, показывают локальные вариации и выделяют взаимодействия между столбцами и строками.Несколько игрушечных примеров предназначены для сравнения различных вариантов SVD, а примеры реальных данных используются для иллюстрации полезности методов визуализации.

Информация о журнале

Целью журнала вычислительной и графической статистики является улучшение и расширение использования вычислительных и графических методов в статистике и анализе данных. Этот ежеквартальный журнал, основанный в 1992 году, содержит новейшие исследования, данные, опросы и многое другое о численных методах, графических изображениях и методах, а также о восприятии. Статьи написаны для читателей, которые имеют большой опыт в области статистики, но не обязательно являются экспертами в области вычислений.

Информация об издателе

Основываясь на двухвековом опыте, Taylor & Francis быстро выросла за последние два десятилетия и стала ведущим международным академическим издателем. Группа издает более 800 журналов и более 1800 новых книг каждый год, охватывая широкий спектр предметных областей и включая журнал. отпечатки Routledge, Carfax, Spon Press, Psychology Press, Martin Dunitz и Taylor & Francis.Taylor & Francis полностью привержена публикации и распространению научной информации высочайшего качества, и сегодня это остается основной целью.

Произошла ошибка при настройке вашего пользовательского файла cookie

Произошла ошибка при настройке вашего пользовательского файла cookie

Этот сайт использует файлы cookie для повышения производительности. Если ваш браузер не принимает файлы cookie, вы не можете просматривать этот сайт.

Настройка вашего браузера для приема файлов cookie

Существует множество причин, по которым cookie не может быть установлен правильно.Ниже приведены наиболее частые причины:

  • В вашем браузере отключены файлы cookie. Вам необходимо сбросить настройки своего браузера, чтобы он принимал файлы cookie, или чтобы спросить вас, хотите ли вы принимать файлы cookie.
  • Ваш браузер спрашивает вас, хотите ли вы принимать файлы cookie, и вы отказались. Чтобы принять файлы cookie с этого сайта, нажмите кнопку «Назад» и примите файлы cookie.
  • Ваш браузер не поддерживает файлы cookie. Если вы подозреваете это, попробуйте другой браузер.
  • Дата на вашем компьютере в прошлом. Если часы вашего компьютера показывают дату до 1 января 1970 г., браузер автоматически забудет файл cookie. Чтобы исправить это, установите правильное время и дату на своем компьютере.
  • Вы установили приложение, которое отслеживает или блокирует установку файлов cookie. Вы должны отключить приложение при входе в систему или проконсультироваться с системным администратором.

Почему этому сайту требуются файлы cookie?

Этот сайт использует файлы cookie для повышения производительности, запоминая, что вы вошли в систему, когда переходите со страницы на страницу.Чтобы предоставить доступ без файлов cookie потребует, чтобы сайт создавал новый сеанс для каждой посещаемой страницы, что замедляет работу системы до неприемлемого уровня.

Что сохраняется в файлах cookie?

Этот сайт не хранит ничего, кроме автоматически сгенерированного идентификатора сеанса в cookie; никакая другая информация не фиксируется.

Как правило, в файле cookie может храниться только информация, которую вы предоставляете, или выбор, который вы делаете при посещении веб-сайта. Например, сайт не может определить ваше имя электронной почты, пока вы не введете его. Разрешение веб-сайту создавать файлы cookie не дает этому или любому другому сайту доступа к остальной части вашего компьютера, и только сайт, который создал файл cookie, может его прочитать.

SMSSVD: Разложение по сингулярным значениям выбора субматрицы | Биоинформатика

Абстрактные

Motivation

Биомедицинские измерения с высокой пропускной способностью обычно фиксируют несколько наложенных друг на друга биологически значимых сигналов, а часто также сигналов, представляющих различные типы технических артефактов, таких как e.г. пакетные эффекты. Соответственно, идентификация и разложение сигналов являются основными задачами статистического биомедицинского моделирования и анализа данных. Существующие методы, нацеленные на восстановление и деконволюцию сигнала, в общем, либо контролируются, содержат параметры, которые необходимо оценить, либо представляют другие типы специальных функций. Здесь мы представляем SubMatrix Selection Singular Value Decomposition (SMSSVD), метод декомпозиции сигналов без учителя и уменьшения размерности без параметров, разработанный для уменьшения шума, адаптивно для каждого сигнала с низким рангом в данной матрице данных, и представляет сигналы в данных. таким образом, чтобы обеспечить беспристрастный исследовательский анализ и реконструкцию нескольких наложенных сигналов, включая определение групп переменных, которые управляют различными сигналами.

Результаты

Метод SMSSVD производит декомпозицию шумоподавленного сигнала из заданной матрицы данных. Он также напрямую гарантирует ортогональность между компонентами сигнала и предназначен для обеспечения возможности автоматизации. Мы проиллюстрируем SMSSVD, применив его к нескольким реальным и синтетическим наборам данных, и сравним его производительность с методами золотого стандарта, такими как PCA (анализ основных компонентов) и SPC (разреженные основные компоненты с использованием ограничений Лассо). SMSSVD вычислительно эффективен и, несмотря на то, что это метод без параметров, в целом превосходит существующие методы статистического обучения.

1 Введение

Биомедицинские измерения с высокой пропускной способностью по своей природе обычно фиксируют несколько наложенных друг на друга биологически значимых сигналов, но часто также и сигналов, представляющих различные типы биологических и технических артефактов. Артефакты могут возникать из-за случайных различий в типах клеток, анализируемых для разных образцов, синхронизированных клеточных циклов, обработки образцов в лаборатории и смещенных ошибок измерения, и это лишь некоторые из них. Поскольку они представляют собой неизвестные свойства образцов, их нельзя контролировать, и поэтому они лучше всего рассматриваются как (структурированный) шум.Вдобавок к этому, как правило, есть белый шум, который добавляет неопределенности данным.

Существуют различные методы, направленные на реконструкцию сигналов и деконволюцию результирующих многомерных и сложных наборов данных, но эти методы почти всегда содержат параметры, которые необходимо оценить, или представляют другие типы специальных функций. Эти методы, разработанные специально для данных Omics и, в частности, данных об экспрессии генов, включают метод стрижки генов (Hastie et al. , 2000), сбор деревьев (Hastie et al., 2001), контролируемые главные компоненты (Bair and Tibshirani, 2004) и усиленная регрессия маргинального собственного вектора (Ding and McDonald, 2017). Они используют самые разные стратегии для решения повсеместной проблемы P N (гораздо больше переменных, чем выборок) в данных omics. Gene Shaving использует первый главный компонент, чтобы итеративно направлять выбор переменных в направлении постепенно уменьшающихся вложенных подмножеств коррелированных генов с большими вариациями. Затем выбирается оптимальный размер подмножества, используя «статистику пробелов», меру того, насколько лучше подмножество, чем ожидалось случайно.Чтобы найти дополнительные подмножества (сигналы), каждый ген сначала проецируется на ортогональный набор среднего гена в текущем подмножестве, и весь процесс повторяется.

Здесь мы представляем SubMatrix Selection Singular Value Decomposition (SMSSVD), метод неконтролируемого уменьшения размера без параметров, в первую очередь разработанный для уменьшения шума, адаптивно для каждого сигнала низкого ранга в матрице данных, и представления данных таким образом, чтобы беспристрастный исследовательский анализ и реконструкция нескольких наложенных сигналов, включая поиск переменных, которые управляют различными сигналами.

Наше первое наблюдение для теоретической основы SMSSVD состоит в том, что SVD линейной карты, ограниченной гиперплоскостью (линейное подпространство), имеют много общих свойств с SVD соответствующей неограниченной линейной карты. Используя это, мы показываем, что, итеративно выбирая ортогональные гиперплоскости на основе критериев оптимального выбора переменных и объединяя разложения, мы можем построить декомпозицию с шумоподавлением для матрицы данных. Метод SMSSVD напрямую гарантирует ортогональность между компонентами и совпадает с SVD, если не применяется выбор переменных. Мы проиллюстрируем SMSSVD, применив его к нескольким реальным и синтетическим наборам данных, и сравним его производительность с методами золотого стандарта для неконтролируемого исследовательского анализа: классическим PCA (анализ главных компонентов) (Hotelling, 1933) и методами на основе лассо или эластичных сетей, такими как SPC (Sparse Основные компоненты) (Виттен и др. , 2009). Как и PCA и SPC, SMSSVD предназначен для использования в широком диапазоне ситуаций, и при выводе метода не делается никаких предположений, специфичных для анализа экспрессии генов.SMSSVD вычислительно эффективен и, несмотря на то, что это метод без параметров, в целом превосходит методы золотого стандарта или равен ему по производительности. Реализация SMSSVD в Julia находится в открытом доступе на GitHub.

2 Материалы и методы

SubMatrix Selection Singular Value Decomposition (SMSSVD), показано на рисунке 1. Основная идея проста: при извлечении сигнала из матрицы данных мы работаем только с подмножеством переменных, выбранных таким образом, что переменные, которые не являются информативными. (я.е. шумный) избегаются. Это обычная стратегия. Что выделяет SMSSVD, так это то, что извлеченный сигнал затем расширяется простым и математически обоснованным способом до полного набора переменных. Это дает SMSSVD несколько желаемых свойств. 1. Интерпретируемость в терминах полного набора переменных. 2. Итеративность — несколько сигналов могут быть извлечены путем повторения процедуры, выбор переменной может выполняться отдельно для каждого сигнала, и переменные могут вносить вклад в несколько сигналов. 3. Ортогональность , что означает, что разные измерения могут интерпретироваться отдельно друг от друга. 4. Это без параметров, т.е. настройка не требуется при применении SMSSVD к набору данных.

Рис. 1.

Обзор алгоритма SMSSVD. Он начинается с матрицы данных P × N с переменных P и N отсчетов (крайняя левая матрица на рисунке). 1. Выбирается подмножество переменных, создавая меньшую матрицу данных. 2. Низкоранговое представление новой матрицы вычисляется с помощью SVD. 3. Представление расширяется до полного набора переменных, производя низкоранговое представление самого сильного сигнала в наборе данных. 4. (Не показано.) Сигнал удаляется из исходной матрицы данных, и процесс повторяется для поиска дополнительных сигналов.

Рис. 1.

Обзор алгоритма SMSSVD. Он начинается с матрицы данных P × N с переменных P и N отсчетов (крайняя левая матрица на рисунке).1. Выбирается подмножество переменных, создавая меньшую матрицу данных. 2. Низкоранговое представление новой матрицы вычисляется с помощью SVD. 3. Представление расширяется до полного набора переменных, производя низкоранговое представление самого сильного сигнала в наборе данных. 4. (Не изображено.) Сигнал удаляется из исходной матрицы данных, и процесс повторяется для поиска дополнительных сигналов

Ниже мы опишем математическую основу SMSSVD. Доказательства и некоторые технические детали можно найти в дополнительных материалах — здесь основное внимание будет уделено интерпретации математики, лежащей в основе SMSSVD. В тексте X будет обозначать матрицу данных P × N , где P — количество переменных, а N — количество выборок.

Шаг выбора переменной важен для SMSSVD, поскольку он обеспечивает основу для механизма адаптивного шумоподавления SMSSVD. (Фактически, если выбор переменной опущен, SMSSVD X будет совпадать с SVD X .) Оценка прогноза (Fontes and Soneson, 2011) обеспечивает естественный критерий оптимальности для выбора переменных.Это мера того, насколько информативным является конкретное подмножество переменных при построении приближения ранга d матрицы данных. В качестве грубого приближения мы можем ожидать, что переменные с более высокой дисперсией меньше подвержены влиянию шума в биологических данных с высокой пропускной способностью. Учитывая порог фильтрации дисперсии, мы можем создать подмножество переменных, сохраняя именно те переменные, у которых дисперсия превышает пороговое значение. Таким образом, оптимизируя оценку проекции совместно с порогом фильтрации дисперсии и размером, мы получаем как оптимальное подмножество переменных, так и простую оценку измерения d захваченного сигнала.

Выполнение SVD для матрицы выбора пост-переменной P˜ × N (назовем ее X˜⁠) предоставляет много информации. Если оставить только d наибольших сингулярных значений, мы получим представление низкого ранга U˜Σ˜V˜T для X˜⁠, где U˜∈RP˜ × d⁠, Σ˜∈Rd × d и V˜ ∈RN × d⁠. Столбцы d столбца V˜ содержат (немасштабированные) координаты выборки, используемые для создания графика PCA (анализа главных компонентов) X˜⁠. Однако матрица U˜ содержит только переменную информацию P˜ из P переменных.Интересно, что матрицы U˜ и V˜ тесно связаны. Если мы знаем V˜⁠, то оказывается, что U˜ можно восстановить, поскольку X˜V˜ = U˜Σ˜ (хорошо известное свойство SVD). В теореме 2.1 мы обобщаем эту идею и показываем, как можно расширить V˜, построенное из X˜, до представления самого низкого ранга X . Столбцы матрицы V˜ определяют d -мерное подпространство Π выборочного пространства RN⁠. Расширение переменных работает, учитывая, что X (рассматриваемое как линейная карта) ограничено Π. Таким образом, мы можем переместить примерное представление, созданное из меньшей матрицы X˜, в переменное представление исходной матрицы X .

Наша первая теорема будет описывать взаимосвязь между SVD X , ограниченным некоторым подпространством Π, и матрицей X . Вторая теорема основывается на первой и показывает, как выбор переменной влияет на конечный результат.

Теорема 2.1

(теорема разложения). Пусть X | Π: Π → X (Π) — ограничение линейного отображения X: RN → RP на d-мерное подпространство Π⊂RN такое, что Π⊥kerX .Кроме того, пусть UΣVT = ∑i = 1dσiU · iV · iT будет разложением по сингулярным числам X | Π . Тогда

  • 1. V · i⊥ker X, ∀i⁠.

  • 2. U · i⊥coker X, i⁠.

  • 3. XV = U Σ.

  • 4. UTX = ΣVT + UTX (I − VVT) ⁠.

  • 5. (I-UUT) X (I-VVT) = (I-UUT) X⁠.

  • 6. ранг (X) = d + ранг ((I-UUT) X) ⁠.

Замечание. В формулировке теоремы мы считаем, что все векторы принадлежат полномерным пространствам.В частности, мы продолжаем все векторы в подпространствах полных пространств с нулем в ортогональные дополнения.

Доказательство. См. Дополнительные материалы. □

Обратите внимание, что VV T — это ортогональная проекция на, а UU T — ортогональная проекция на X (Π). Если Π натянуто на правые сингулярные векторы, соответствующие d наибольших сингулярных значений X , то U Σ V T — это усеченный SVD, который по теореме Экхарта-Юнга является ближайшим ранжируйте матрицу d до X по Фробениусу и спектральным нормам.Кроме того, если Π = (kerX) ⊥⁠, то d = ранг X и U Σ V T — это SVD X (без расширения U и V до ортонормального матрицы). То есть для некоторых конкретных вариантов выбора Π U Σ V T напрямую соответствует SVD. Но даже когда это не так, многие важные свойства, которые выполняются для (усеченного) SVD X , сохраняются независимо от того, как выбрано подпространство.Однако обратите внимание, что для SVD свойство 4 симметрично свойству 3 , т.е. U T X = Σ V T , а остаток U T X ( I VV T ) вообще ненулевое значение.

Для адаптивного снижения шума Π должно зависеть от X . Оптимизируя оценку проекции, мы можем выбрать подмножество переменных, на которые шум, скорее всего, будет меньше влиять. Это частный случай выбора Π после выполнения линейного преобразования переменных.

Теорема 2.2

(Теорема выбора-разложения). Возьмем линейную карту S: RL → RP и целое число d такое, что ранг STX≥d , и пусть U˜Σ˜V˜T будет усеченным SVD ранга d для S T X. Кроме того, пусть Π будет подпространством, охватываемым столбцами V ~ , и пусть UΣV T будет SVD X | Π⁠. Тогда

  • 1. Π⊥ker X⁠.

  • 2. STUΣVT = U˜Σ˜V˜T⁠.

  • 3.{V · 1, V · 2,…, V · d} и {V˜ · 1, V˜ · 2,…, V˜ · d} являются ортонормированными базисами Π.

  • 4. {STU · 1, STU · 2,…, STU · d} и {U˜ · 1, U˜ · 2,…, U˜ · d} являются основаниями STX (Π ) ⁠.

  • 5. || Σ || F≥ || Σ˜ || F || S || 2⁠.

  • 6. UTX = ΣVT + UT (I − SST) X (I − VVT) ⁠.

Доказательство. См. Дополнительные материалы. □

Следствие 2.1.

Если S T S = I , , то || Σ || F≥ || Σ˜ || F⁠.

Свойства теоремы 2.2 показывают, что процедура Selection-Expansion работает должным образом. Во-первых, свойство 1 просто утверждает, что теорема 2.1 применима. Свойство 2 говорит нам, что выбор переменной является обратной операцией расширения переменной в том смысле, что если мы применим выбор переменной к матрице низкого ранга P × N U Σ V T , мы получаем нерасширенную матрицу P˜ × N низкого ранга U˜Σ˜V˜T⁠. Таким образом, расширение переменной расширяет представление полного набора переменных, оставляя выбранные переменные нетронутыми. Из свойства 3 видно, что примерное представление для расширенной матрицы, по сути, такое же, как для меньшей матрицы, они могут отличаться только поворотом / отражением. Отсюда следует, что биплоты в стиле PCA, основанные на малых или расширенных матрицах, будут выглядеть одинаково (вплоть до поворота / отражения всего графика) — не считая очевидной разницы в том, что биплот расширенной матрицы будет показывать загрузки всех переменных, а не только выбранные.Отметим также, что остаточный член UT (I − SST) X (I − VVT) в свойстве 6 [ср. U T X ( I VV T ) в теореме 2.1, свойство 4 ] здесь показано, что оно зависит только от невыбранных переменных, опять же, что и следовало ожидать. Наконец, следствие 2.1 объясняет, что сингулярные значения расширенной матрицы всегда будут больше или равны сингулярным значениям меньшей матрицы (по норме Фробениуса).

Другой способ интерпретации S состоит в том, что SS T определяет (возможно, вырожденный) внутренний продукт на пространстве выборки, который используется для нахождения Π.Чтобы увидеть это, пусть d = ранг S T X , так что U˜Σ˜V˜T = STX и K: = XTSSTX = V˜Σ˜2V˜T⁠, показывая хорошо известный результат, что V˜Σ˜2V˜T — это собственное разложение K , где Kij = 〈xi, xj〉: = X · iTSSTX · j — внутреннее произведение выборки i и j . Это естественным образом распространяется на ядро ​​PCA, где K определяется путем взятия скалярных произведений после (неявного) отображения в многомерное пространство. Любой метод, который приводит к низкоразмерному представлению V˜ пространства выборки, действительно может быть использован, поскольку по определению натянуто на столбцы V˜.Мы не будем здесь заниматься этими расширениями.

Теперь мы готовы сформулировать алгоритм SMSSVD, который был обрисован в общих чертах на рисунке 1. Пусть X1: = X и повторите следующие шаги для k = 1,2,…

  1. Выбор: Оптимизировать по оценке проекции до найти оптимальную матрицу выбора переменных S k и размерность сигнала d k для матрицы X k .

  2. SVD: Пусть Π k будет подпространством, охватываемым столбцами V˜k в ранге d k усеченный SVD SkTXk⁠.

  3. Расширение: Compute UkΣkVkT из Xk | Πk⁠.

  4. Удаление сигнала: Пусть Xk + 1: = (I − UkUkT) Xk⁠.

Итерации могут продолжаться до тех пор, пока X k не равно нулю или пока не будут выполнены другие критерии остановки. Наконец, сигналы объединяются:

UΣVT: = (U1U2… Un) (Σ1Σ2⋱Σn) (V1TV2T ⋮ VnT) = ∑k = 1nUkΣkVkT,

, где U Σ V T — это SMSSVD . , версия X с пониженным уровнем шума (и с низким рейтингом).

SMSSVD разработан, чтобы сохранить как можно больше свойств SVD, в то же время уменьшая влияние шума для наборов данных с большим количеством переменных. Само представление, U Σ V T , поразительно похоже на SVD, и части декомпозиции можно интерпретировать так же, как и для SVD, что обеспечивает аналогичную визуализацию и последующий анализ.

Одна из причин повсеместного использования SVD заключается в том, что как U , так и V имеют ортонормированные столбцы, что значительно облегчает интерпретацию, поскольку различные эффекты могут быть отделены друг от друга.Это также верно для SMSSVD. Во-первых, ортонормальность между столбцами в пределах каждого U k и V k следует непосредственно из определения (⁠UkΣkVkT — SVD Xk | Πk⁠). Во-вторых, этап «Удаление сигнала» обеспечивает ортогональность между сигналами. Это гарантирует, что колонны U k находятся в установке для коксования X l для всех l > k , и ортогональность следует, поскольку U l гарантированно ортогональны установке для коксования X l (Теорема 2. 1, владение 3 ). Аналогично, поскольку Xk + 1 = (I-UkUkT) Xk = (I-UkUkT) Xk (I-VkVkT) ⁠, то же самое верно для V k ’ s.

В SVD диагональные элементы Σ упорядочены по убыванию. Для SMSSVD это верно в пределах каждого Σ k , но не обязательно между сигналами. Но на практике мы не ожидаем, что они будут сильно отклоняться от порядка убывания, поскольку алгоритм SMSSVD предназначен для выбора в первую очередь самых сильных сигналов из данных.

Шаг «Удаление сигнала» снижает ранг матрицы данных на d k , что является рангом сигнала k , по теореме 2.1, свойство 6 . Это означает, что rankUΣVT = rank X, если итерации выполняются полностью до X k = 0, чего и следовало ожидать. Но, в отличие от СВД, U Σ V T X в целом за счет шумоподавления.

3 Результаты

Производительность SMSSVD оценивается по сравнению с SVD и SPC (Sparse Principal Components), методом, аналогичным SVD, но с дополнительным ограничением лассо ( L 1 ) для достижения разреженности (Witten et al. , 2009). Методы оцениваются как для реальных данных с использованием четырех наборов данных экспрессии генов, так и для синтетических данных, достоверность которых известна. Все сравнения выполняются с одинаковым количеством измерений в разных моделях, то есть SMSSVD и SPC запускаются до тех пор, пока не будет достигнут целевой размер, а SVD усечен для использования верхних d сингулярных значений.

3.1 Данные по экспрессии генов

Доказательство концепции SMSSVD показано на рисунке 2 с использованием данных по экспрессии генов из TCGA (Атлас ракового генома) (Weinstein et al., 2013). Набор данных был загружен из recount2 (Fu et al. , 2018), были использованы первые 300 образцов с аннотацией ‘cgc_case_tumor_status’, установленной на ‘WITH TUMOR’, и образцы были помечены в соответствии с аннотацией ‘gdc_cases_tissue_source_site_project’, с 30 разные типы опухолей. Нормализация была выполнена с использованием преобразования, стабилизирующего дисперсию (VST) (Anders and Huber, 2010; Love et al. , 2014). Панель A отображает оценку проекции для сигналов, обнаруженных SMSSVD, как функцию порога фильтрации дисперсии.Самый сильный сигнал (6d, выбрана 991 переменная) доминирует в наборе данных с высокой оценкой проекции для широкого диапазона значений фильтрации дисперсии, но все же с четким пиком, показывая, что мы получаем более надежный сигнал после фильтрации дисперсии. На панелях B и C мы видим, как этот сигнал фиксирует различия в экспрессии генов между типами опухолей в наборе данных. Напротив, второй сигнал (1d, выбрано 8 переменных) имеет более четко определенный пик, но его нельзя найти без фильтрации дисперсии. Как видно на панели D, он соответствует полу, а сигнал не улавливается e.г. СВД. Способность находить оба типа сигналов неконтролируемым и непредвзятым образом демонстрирует SMSSVD. Третий сигнал (5d, выбрана 161 переменная) немного сложнее уловить, но мы все еще видим один пик на графике оценки проекции. Это также соответствует различиям между типами опухолей. Более полный вид можно увидеть на дополнительных рисунках S1 и S2, на которых показаны первые 12 измерений для SMSSVD и SVD соответственно.

Рис. 2.

SMSSVD набора данных TCGA. А . Прогнозные баллы для каждого сигнала с порогом для фильтрации переменных по оси x, т. Е. Включаются только переменные с более высоким стандартным отклонением, чем пороговое значение. Б – Д . Образцы участков. B и C окрашены в зависимости от типа опухоли (подробности см. В дополнительных материалах). Некоторые примеры: гепатоцеллюлярная карцинома печени (оранжевый, вверху B), глиома головного мозга нижнего уровня (голубой, внизу слева от B), серозная цистаденокарцинома яичников (светло-зеленый, внизу B), аденокарцинома прямой кишки (темно-фиолетовый, вверху слева от C). ) и аденокарцинома толстой кишки (коричневый, вверху слева от C).В D образцы окрашены по полу: женский (желтый) и мужской (синий)

Рис. 2.

SMSSVD набора данных TCGA. А . Прогнозные баллы для каждого сигнала с порогом для фильтрации переменных по оси x, т. Е. Включаются только переменные с более высоким стандартным отклонением, чем пороговое значение. Б – Д . Образцы участков. B и C окрашены в зависимости от типа опухоли (подробности см. В дополнительных материалах). Некоторые примеры: гепатоцеллюлярная карцинома печени (оранжевый, вверху B), глиома головного мозга нижнего уровня (голубой, внизу слева от B), серозная цистаденокарцинома яичников (светло-зеленый, внизу B), аденокарцинома прямой кишки (темно-фиолетовый, вверху слева от C). ) и аденокарцинома толстой кишки (коричневый, вверху слева от C).В D образцы окрашены по полу, женский (желтый) и мужской (синий)

Мы также попробовали SMSSVD на трех других наборах данных экспрессии генов, два из которых были доступны с данными микрочипа, а один основан на RNA-Seq, доступном по запросу из оригинальные авторы. Профили микрочипов экспрессии генов из исследования рака груди (Chin et al. , 2006) ранее использовались для оценки SPC (Witten et al. , 2009), но, в отличие от их анализа, мы использовали все 118 образцов и все 22215 генов.Каждый образец был помечен как один из пяти подтипов рака груди: «базальный подобный», «просвет A», «просвет B», «ERBB2» и «нормальный подобный груди». В исследовании острого лимфобластного лейкоза у детей (ОЛЛ) профили экспрессии генов были измерены в 132 диагностических образцах (Ross et al. , 2003). Образцы были помечены подтипами прогнозируемого лейкоза [«TEL-AML1», «BCR-ABL», «MLL», «Hyperdiploid (> 50)», «E2A-PBX1», «T-ALL» и «Другое»]. Наш последний набор данных взят из другого педиатрического исследования ОЛЛ, в котором профили экспрессии генов проводились на основе данных RNA-Seq для 195 образцов (Lilljebjörn et al., 2016). Образцы были сопоставлены с Tophat2 (Kim et al. , 2013), уровни экспрессии генов нормализованы с помощью TMM (Robinson and Oshlack, 2010) и логарифмированы. Были сохранены только гены с поддержкой не менее 10 чтений как минимум в 2 образцах. Аннотированные подтипы в этом наборе данных: «BCR-ABL1», «ETV6-RUNX1», «Высокий гипердиплоид», «MLL», «TCF3-PBX1» и «Другое». Здесь «Другое» — очень разнообразная группа, содержащая все, что не входило в первые пять категорий. Таким образом, мы представляем результаты без включения этой группы (результаты с включенным «Other» можно найти на дополнительном рис.S3).

Способность извлекать релевантную информацию из наборов данных экспрессии генов оценивалась для каждой модели по тому, насколько хорошо они могут объяснить (под) типы, используя информационный критерий Акаике (AIC) для оценки модели. Учитывая низкоразмерные образцы представлений из SMSSVD, SVD или SPC (для различных значений параметра разреженности, c ), модель гауссовой смеси была построена путем подбора одной многомерной гауссовой модели для каждого подтипа. Приоры класса были выбраны пропорционально размеру каждого подтипа.Логарифмическая вероятность l: = log P (x | θ, M) ⁠, где x — метки подтипа, M — модель, а θ вектор из k параметров подобранной модели используется для вычисления AIC. = 2 к — 2 л . Такой подход к оценке моделей не является универсальным методом определения «лучшей» модели. Он основан на аннотациях, которые вряд ли охватят всю структуру данных, и, кроме того, не всегда можно предположить, что разные подтипы следуют гауссовскому распределению, даже несмотря на то, что приближение можно считать достаточно точным, поскольку характеристики (под) типа состоят из много меньших эффектов.Однако мы считаем, что полезно иметь приблизительную оценку биологической значимости моделей, даже если невозможно предоставить основную истину. На рисунке 3 показаны оценки AIC для различных моделей в зависимости от измерения модели. SMSSVD обычно работает лучше, чем SVD. Сравнение с SPC сложнее, поскольку производительность SPC определяется параметром разреженности c и не существует простого объективного способа выбрать c . Однако SMSSVD хорошо сравнивается с SPC независимо от значения параметра.

Рис. 3.

Оценка SMSSVD на различных наборах данных на основе оценок AIC при подгонке модели смеси Гаусса к (под) типам. Сверху вниз: набор данных TCGA, рак груди, острый лимфобластный лейкоз (микроматрица), острый лимфобластный лейкоз (RNA-Seq)

Рис. 3.

Оценка SMSSVD на различных наборах данных, основанная на показателях AIC при подборе смеси Гаусса Модель к (под) типам. Сверху вниз: набор данных TCGA, рак груди, острый лимфобластный лейкоз (микроматрица), острый лимфобластный лейкоз (RNA-Seq)

Графики осыпи часто используются для отделения сигнала от шума путем удаления компонентов после «колена» на графике. .Дополнительный рисунок S4 отображает графики осыпи для четырех наборов данных на рисунке 3. Нетривиально и субъективно определить, где находится колено, для набора данных TCGA можно утверждать, что оно находится в компоненте 2, 4 или 6. SMSSVD избегает этого. проблемы, вместо этого автоматически определяя размер сигнала путем оптимизации оценки проекции. Кроме того, компоненты после «колена» могут по-прежнему содержать важную информацию. SMSSVD находит биологически релевантную структуру во всех более поздних компонентах (7–12), связывая образцы либо с полом, либо с типом опухоли, см. Дополнительный рисунок S1.В некоторой степени это справедливо и для SVD (дополнительный рисунок S2).

3,2 Синтетические данные

SMSSVD разлагает матрицу, наблюдаемую в шумных условиях, как серию ортогональных сигналов низкого ранга. Цель состоит в том, чтобы получить стабильное представление выборок, а затем восстановить как можно больше переменных, даже для сигналов, сильно искаженных шумом. Чтобы оценить SMSSVD, мы синтетически создаем серию сигналов низкого ранга Y k , которые являются ортогональными (т.е.е. YiTYj = 0 и YiYjT = 0 для i j ) и который имеет выбранный уровень разреженности на стороне переменных, и попытаться восстановить отдельные Y k из наблюдаемой матрицы X: = ∑ kYk + ε, где ε — матрица, а εij∼N (0, σij) ⁠. Чтобы измерить, насколько хорошо SMSSVD восстанавливает сигналы из данных, мы рассматриваем каждый сигнал отдельно, рассматривая только те переменные, для которых сигнал имеет поддержку. k — восстановленный сигнал, а R k определяется таким образом, что умножение на RkT слева выбирает переменные (строки), где Y k не равно нулю.k: = UkΣkVkT⁠), то же самое нельзя сказать о SVD и SPC. Чтобы проверить способность находить сигналы, а не способность находить их в правильном порядке, компоненты переупорядочиваются с использованием алгоритма, который пытается минимизировать общую ошибку путем жадного сопоставления матриц ранга 1 из разложения с сигналами Y k , всегда выбирая совпадение, которое больше всего снижает общую ошибку. Количество матриц ранга 1, соответствующих каждому сигналу Y k , равно рангу Y k .Обратите внимание, что при отсутствии шума SVD всегда найдет оптимальное разложение.

Двусторонние графики на рисунке 4 иллюстрируют, как работает SMSSVD и как реконструкция сигнала сравнивается с другими методами. Если нет шума, идеальное разложение достигается всеми методами, кроме SPC с высокой степенью разреженности. Искусственный пример, когда шум добавляется только к переменным, не являющимся сигналом, подчеркивает, что SMSSVD все еще может идеально восстанавливать как выборки, так и переменные сигнала, тогда как другие методы обнаруживают значительные дефекты.Наконец, когда все переменные подвержены влиянию шума, SMSSVD по-прежнему дает лучшие результаты.

Рис. 4.

Два сигнала 2 d с неперекрывающейся поддержкой переменных показаны для отсутствия шума (две верхние строки), шума, добавленного только к переменным, не являющимся сигналом (две средние строки), и для шума, добавленного к все переменные (нижние две строки). Реконструкция первого сигнала показана в верхнем ряду, а для второго сигнала — в нижнем ряду в каждом наборе. Разные столбцы соответствуют разным методам, где SPC «1», «2» и «3» имеют штрафы за регуляризацию c = 2, 8 и 32 соответственно, контролируя степень разреженности.Образцы показаны черным цветом, переменные, в которых сигнал имеет поддержку, — красным, а другие переменные — синим. Переменные в опоре соединены пунктирными линиями только для того, чтобы облегчить определение того, как на переменные влияет шум. Для SMSSVD переменные, выбранные с помощью оптимальной фильтрации дисперсии, показаны в полном цвете, а другие переменные показаны более белым тоном. И образцы, и переменные масштабируются, чтобы заполнить оси на каждом графике. Было использовано 32 выборки и 5000 переменных, из которых каждый сигнал поддерживался 64 переменными, а остальные имели только шум

Рис.4.

Два сигнала 2 d с неперекрывающейся поддержкой переменных показаны для отсутствия шума (две верхние строки), шума, добавленного только к переменным, не являющимся сигналом (две средние строки), и для шума, добавленного ко всем переменным ( Два нижних ряда). Реконструкция первого сигнала показана в верхнем ряду, а для второго сигнала — в нижнем ряду в каждом наборе. Разные столбцы соответствуют разным методам, где SPC «1», «2» и «3» имеют штрафы за регуляризацию c = 2, 8 и 32 соответственно, контролируя степень разреженности. Образцы показаны черным цветом, переменные, в которых сигнал имеет поддержку, — красным, а другие переменные — синим. Переменные в опоре соединены пунктирными линиями только для того, чтобы облегчить определение того, как на переменные влияет шум. Для SMSSVD переменные, выбранные с помощью оптимальной фильтрации дисперсии, показаны в полном цвете, а другие переменные показаны более белым тоном. И образцы, и переменные масштабируются, чтобы заполнить оси на каждом графике. Было использовано 32 выборки и 5000 переменных, из которых каждый сигнал поддерживался 64 переменными, а остальные имели только шум

Затем мы создали несколько наборов данных для различных условий на основе параметров N = 100: Количество выборок, P : количество переменных, L : количество переменных, поддерживающих каждый сигнал, K = 8: количество сигналов и d : ранг каждого сигнала.Для каждого сигнала рандомизируем матрицы U k и V k , выбираем диагональную матрицу Σ k и полагаем Yk: = UkΣkVkT⁠. Для V k и U k каждый новый столбец создается путем выборки вектора i.i.d. Гауссовские случайные величины и проецирование на ортогональное дополнение подпространства, охватываемого предыдущими столбцами (в текущем и предыдущем сигналах). Для U k мы рассматриваем только подпространство, охватываемое L случайно выбранными переменными.Затем результат расширяется путем вставки нулей для других переменных P L . Чтобы завершить сигнал, пусть диагональный элемент i Σ k , (Σk) ii: = 0,6k − 10,9i − 1⁠, так что мощность между сигналами и внутри компоненты каждого сигнала. Наконец, i.i.d. В матрицу данных добавлен гауссов шум. На рисунках 5, 6 и дополнительном рисунке S5 показаны результаты тестирования наборов данных, рандомизированных таким образом для различных наборов параметров.SMSSVD — единственный метод, который хорошо работает по всему набору параметров. Единственная ситуация, когда SMSSVD стабильно проигрывает, это SVD для большого L , и это с небольшим отрывом. SMSSVD особенно хорошо работает по сравнению с другими методами в сложных случаях, когда отношение сигнал / шум низкое. Производительность SPC явно зависит от параметра регуляризации, который в разных ситуациях должен выбираться по-разному. Однако, несмотря на то, что это метод без параметров, SMSSVD в большинстве случаев превосходит SPC.

Рис. 5.

Ошибка восстановления err ( k ) показана для различных условий. Уровень сигнала || Yk || F (черный) показан для шкалы. Это следующие методы: SVD (синий), SMSSVD (красный) и SPC (зеленый, пурпурный, голубой) с уменьшающейся степенью разреженности (параметры регуляризации c = 0,04P, c = 0,12P и c = 0,36P соответственно). Ошибки, превышающие мощность сигнала, не отображаются, поскольку это означает, что был обнаружен другой сигнал

Рис.5.

Ошибка восстановления err ( k ) показана для различных условий. Уровень сигнала || Yk || F (черный) показан для шкалы. Это следующие методы: SVD (синий), SMSSVD (красный) и SPC (зеленый, пурпурный, голубой) с уменьшающейся степенью разреженности (параметры регуляризации c = 0,04P, c = 0,12P и c = 0,36P соответственно). Ошибки, превышающие мощность сигнала, не отображаются, поскольку это означает, что был обнаружен другой сигнал

Рис. 6.

Ошибка восстановления err ( k ) показана для различных условий.Уровень сигнала || Yk || F (черный) показан для шкалы. Это следующие методы: SVD (синий), SMSSVD (красный) и SPC (зеленый, пурпурный, голубой) с уменьшающейся степенью разреженности (параметры регуляризации c = 0,04P, c = 0,12P и c = 0,36P соответственно). Ошибки, превышающие мощность сигнала, не отображаются, поскольку это указывает на то, что был обнаружен другой сигнал.

Рис. 6.

Ошибка восстановления, err ( k ), показана для различных условий. Уровень сигнала || Yk || F (черный) показан для шкалы.Это следующие методы: SVD (синий), SMSSVD (красный) и SPC (зеленый, пурпурный, голубой) с уменьшающейся степенью разреженности (параметры регуляризации c = 0,04P, c = 0,12P и c = 0,36P соответственно). Ошибки, превышающие мощность сигнала, не отображаются, поскольку это означает, что был обнаружен другой сигнал

3.3 Время вычисления

SMSSVD требует больших вычислительных ресурсов, чем SVD или SPC, поскольку для вычисления оценки проекции он использует самозагрузку. Однако в целом требуется очень мало итераций начальной загрузки, поскольку дисперсии собственных значений рандомизированных матриц, как правило, очень малы.Кроме того, поскольку настройка параметров не требуется, часто бывает достаточно запустить SMSSVD только один раз. Время выполнения для наборов данных на рисунке 3 показано в таблице 1.

Таблица 1.

Время выполнения на процессоре Intel Core i7-4720HQ с частотой 2,6 ГГц.

2 2 2
. СВД . SPC a ( c =)
.
SMSSVD
.
Набор данных . . 4 . 16 . 64 . 10 iter. . 100 iter. .
TCGA 1,61 с 7,4 с 8,5 с 9,2 с 75 с 396 с
Рак молочной железы 0,28 1,72 .5s 13s 49s
ALL (микроматрица) 0,35s 2,4s 2,6s 3,2s 21s 77s
2 с
0,6 с 0,5 с 0,5 с 9 с 30 с
3,2222
. СВД . SPC a ( c =)
.
SMSSVD
.
Набор данных . . 4 . 16 . 64 . 10 iter. . 100 iter. .
TCGA 1,61 с 7,4 с 8,5 с 9,2 с 75 с 396 с
Рак молочной железы 0.28s 1,7s 1,8s 2,5s 13s 49s
ALL (Microarray) 0,35s 2,4s 2,6s 3,222
ALL (RNA-Seq) 0,08 с 0,6 с 0,5 с 0,5 с 9 с 30 с
Таблица 1.

Время выполнения на процессоре Intel Core i7-4720HQ 2.6 ГГц.

. СВД . SPC a ( c =)
.
SMSSVD
.
Набор данных . . 4 . 16 . 64 . 10 iter. . 100 iter. .
TCGA 1,61 с 7,4 с 8,5 с 9,2 с 75 с 396 с
Рак молочной железы 9321 9321,7221,71 с 1,28 s 13s 49s
ALL (микрочип) 0,35s 2,4s 2,6s 3,2s 21s 77s
ALL .08с 0,6с 0,5с 0,5с 30с
4
. СВД . SPC a ( c =)
.
SMSSVD
.
Набор данных . . 4 . 16 . 64 . 10 iter. . 100 iter. .
TCGA 1,61 с 7,4 с 8,5 с 9,2 с 75 с 396 с
Рак молочной железы 9321 9321,7221,71 с 2,5 s 13s 49s
ALL (Microarray) 0,35s 2,4s 2.6s 3,2s 21s 77s
ALL (RNA-Seq) 0,08s 0,6s 0,5s 0,5s 9s3220332203203

Мы представили SMSSVD, метод уменьшения размерности, разработанный для сложных наборов данных с множественными наложенными сигналами, наблюдаемыми в шумных условиях. По сравнению с другими методами в широком диапазоне условий SMSSVD работает одинаково хорошо или лучше. SMSSVD выделяется в ситуациях, когда P N (гораздо больше переменных, чем образцы) и большинство переменных просто вносят свой вклад в шум, что является очень распространенной ситуацией для биологических данных с высокой пропускной способностью. Как метод без параметров, SMSSVD не требует каких-либо предположений об уровне разреженности. Действительно, SMSSVD может обрабатывать разные сигналы в одном наборе данных, которые демонстрируют очень разные уровни разреженности. Отсутствие параметров также делает SMSSVD подходящим для автоматизированных конвейеров, где можно сделать несколько предположений относительно данных.

Распространенной стратегией при анализе данных большой размерности является сначала применение PCA (SVD), чтобы уменьшить размерность до промежуточного числа, достаточно высокого, чтобы дать точное представление набора данных, но достаточно низкого, чтобы избавиться от некоторого шума и ускорить восходящие и нисходящие вычисления [см., например, (Маатен и Хинтон, 2008 г. )]. Мы утверждаем, что, поскольку SMSSVD может восстанавливать несколько наложенных сигналов и адаптивно снижать шум, влияющий на каждый сигнал, чтобы можно было найти даже сигналы с более низким отношением сигнал / шум, это очень полезно в этой ситуации.

Наш уникальный вклад состоит в том, что мы сначала решаем более подходящую задачу уменьшения размерности для надежного поиска сигналов в наборе данных, поврежденных шумом, а затем отображаем результат обратно в исходные переменные. Мы также показываем, как эта комбинация шагов придает SMSSVD множество желаемых свойств, связанных с SVD как для полной матрицы данных, так и для меньшей матрицы из шага выбора переменной. Ортогональность между компонентами является одним из краеугольных камней SVD, но часто бывает трудно удовлетворить условиям ортогональности, когда другие факторы принимаются во внимание.SPC, например, дает ортогональность для образцов, но не для переменных, и средние гены каждой подгруппы в генном бритье «разумно» некоррелированы. Для SMSSVD ортогональность следует непосредственно из конструкции, что упрощает интерпретацию и последующие этапы анализа. Теорема 2.2, свойство 2 подчеркивает, что переменные, сохраненные на этапе выбора переменных, не затрагиваются, когда решение расширяется до полного набора переменных. Следовательно, мы можем естественно рассматривать каждый сигнал с точки зрения выбранных переменных или с использованием всех переменных.

Шаг выбора переменной в алгоритме SMSSVD можно выбрать произвольно. Для исследовательского анализа оптимизация оценки прогноза на основе фильтрации дисперсии является естественным и беспристрастным выбором. Другой вариант — использовать Projection Score для фильтрации, связанной с ответами, например ранжирование переменных по абсолютному значению статистики t при выполнении теста t между двумя группами выборок. Алгоритм также имеет дословную поддержку взвешивания переменных путем выбора матрицы S в качестве диагональной матрицы с весом для каждой переменной. Ясно, что это обобщение выбора переменных.

Ядро PCA, SPC и другие методы, которые дают низкоразмерные образцы представлений, но где переменная информация (частично) потеряна, также могут быть расширены с помощью SMSSVD (полагаясь только на теорему 2.1), если линейное представление в исходных переменных можно считать значимым. Помимо получения представления переменной стороны, алгоритм SMSSVD также позволяет находить несколько перекрывающихся сигналов, применяя интересующий метод уменьшения размерности в качестве первого шага каждой итерации SMSSVD.

SMSSVD был оценен на нескольких наборах данных по экспрессии генов и синтетических данных и показал очень хорошие результаты по сравнению с методами золотого стандарта для неконтролируемого исследовательского анализа. Модель SMSSVD не ограничивается наборами данных по экспрессии генов, но предназначена для любых наборов данных, в которых можно ожидать, что по крайней мере некоторые из сигналов будут иметь поддержку в ограниченном количестве переменных, что является очень распространенной ситуацией для биологических данных с высокой пропускной способностью. Фактически, мы уже применяли SMSSVD при изучении квазивидов вирусов при моделировании вирусных популяций как распределений в пространстве последовательностей (Henningsson et al., 2018).

Благодарности

Авторы хотели бы поблагодарить Thoas Fioretos и Henrik Lilljebjörn из Департамента лабораторной медицины, Отдел клинической генетики, Лундский университет, за предоставленный нам доступ к данным RNA-seq, представленным в (Lilljebjörn et al. , 2016). Мы также хотели бы поблагодарить анонимных рецензентов за их ценные отзывы.

Финансирование

Работа поддержана Центром математических наук Лундского университета.

Конфликт интересов : не объявлен.

Список литературы

Андерс

S.

,

Huber

W.

(

2010

)

Анализ дифференциальной экспрессии для данных подсчета последовательностей

.

Genome Biol

.,

11

,

R106.

Баир

E.

,

Tibshirani

R.

(

2004

)

Полу-контролируемые методы прогнозирования выживаемости пациентов по данным экспрессии генов

.

PLoS Biol

.,

2

,

e108.

Подбородок

K.

et al. (

2006

)

Геномные и транскрипционные аберрации, связанные с патофизиологией рака груди

.

Cancer Cell

,

10

,

529

541

.

Ding

L.

,

McDonald

D.J.

(

2017

)

Прогнозирование фенотипов на основе микрочипов с использованием усиленной, изначально маргинальной, регрессии собственных векторов

.

Биоинформатика

,

33

,

i350

i358

.

Fontes

M.

,

Soneson

C.

(

2011

)

Оценка проекции — критерий оценки для выбора подмножества переменных в визуализации PCA

.

BMC Bioinformatics

,

12

,

307.

Fu

J.

et al. (

2018

)

Количественная оценка транскрипта RNA-seq по данным уменьшенного представления в recount2

.

bioRxiv

,

247346

.

Hastie

T.

et al. (

2000

) ‘

Бритье генов как метод выявления различных наборов генов со схожими паттернами экспрессии

.

Genome Biol

.,

1

,

research0003

.

Hastie

T.

et al. (

2001

)

Сбор саженцев под контролем

.

Genome Biol

.,

2

,

research0003

.

Хеннингссон

R.

et al. (

2018

)

Моделирование пространственно-временной динамики SEQuence на основе DISSEQT-DIStribution

.

bioRxiv

,

327338

.

Гостиница

H.

(

1933

)

Анализ комплекса статистических переменных на главные компоненты

.

J. Educ. Psychol

.,

24

,

417.

Kim

D.

et al. (

2013

)

Tophat2: точное выравнивание транскриптомов при наличии вставок, делеций и слияний генов

.

Genome Biol

.,

14

,

R36.

Lilljebjörn

H.

et al. (

2016

)

Идентификация подтипов ETV6-RUNX1-подобных и DUX4-реаранжированных при остром лимфобластном лейкозе педиатрических предшественников В-клеток

.

Nat. Коммуна

.,

7

,

11790

.

Любовь

М.И.

et al. (

2014

)

Умеренная оценка кратного изменения и дисперсии данных последовательности РНК с помощью DESeq2

.

Genome Biol

.,

15

,

550.

Maaten

L.v.d.

,

Hinton

г.

(

2008

)

Визуализация данных с помощью t-SNE

.

J. Mach. Учиться. Res

.,

9

,

2579

2605

.

Робинсон

M.D.

,

Ошлак

A.

(

2010

)

Метод масштабной нормализации для анализа дифференциальной экспрессии данных RNA-seq

.

Genome Biol

.,

11

,

R25.

Росс

M.E.

et al. (

2003

)

Классификация острого лимфобластного лейкоза у детей по профилю экспрессии генов

.

Кровь

,

102

,

2951

2959

.

Вайнштейн

J.N.

et al. (

2013

)

Проект пан-рака атласа генома рака

.

Nat. Genet

.,

45

,

1113.

Witten

D.M.

et al. (

2009

)

Разложение матрицы со штрафными санкциями, с приложениями к разреженным главным компонентам и каноническим корреляционным анализом

.

Биостатистика

,

10

,

515

534

.

© Автор (ы) 2018. Опубликовано Oxford University Press.

Это статья в открытом доступе, распространяемая в соответствии с условиями лицензии Creative Commons Attribution License (http: // creativecommons.org / licenses / by / 4.0 /), который разрешает неограниченное повторное использование, распространение и воспроизведение на любом носителе при условии правильного цитирования оригинальной работы.

[PDF] Параллельное разложение по сингулярным числам с помощью полярной декомпозиции

ПОКАЗЫВАЕТ 1-10 ИЗ 19 ССЫЛОК

СОРТИРОВАТЬ ПО РелевантностиСамые популярные статьи Недавность

Параллельный алгоритм для вычисления полярной декомпозиции

В этой работе рассматривается вычисление итерации U-го порядка для вычислений. p независимых обращений матриц на шаг, что, следовательно, очень удобно для параллельных вычислений, и показывает, что масштабирование итераций ускоряет сходимость итерации, но делает итерацию только условно стабильной.Развернуть

Вычисление полярного разложения с помощью приложений

Представлен и проанализирован квадратично сходящийся метод Ньютона для вычисления полярного разложения полноранговой матрицы. Параметры ускорения вводятся для улучшения начального… Развернуть

  • Просмотреть 5 отрывков, ссылки на методы

Быстрое полярное разложение произвольной матрицы

Гибридный алгоритм, который адаптивно переключается с итерации на основе инверсии матриц на итерацию на основе умножения матриц благодаря Коварику, Бьорку и Боуи, сформулирована и, как показано, более эффективна на машинах, на которых может выполняться матричное умножение 1. В 5 раз быстрее инвертированной матрицы. Развернуть
  • Просмотреть 1 отрывок, ссылки на методы

Проектирование набора инструментов для параллельной несимметричной собственной подпрограммы, часть I

Предлагается набор инструментов для плотной несимметричной задачи собственных значений, который включает вычисления базовых блочных матриц, функцию знака матрицы, двумерное деление пополам, и спектральное разделение и владение с использованием функции matrixSign для поиска выбранных собственных значений. Expand

Матричный анализ

В этом новом издании признанного текста представлены результаты как классического, так и недавнего матричного анализа с использованием канонических форм в качестве объединяющей темы и демонстрируется их важность для различных приложений.Expand

The Test Matrix Toolbox для MATLAB

Мы описываем версию 2.0 Test Matrix Toolbox для Matlab 4. Набор инструментов содержит набор тестовых матриц, подпрограмм для визуализации матриц и различных подпрограмм, которые предоставляют полезные . .. Разверните

Parallel Algorithms for Разложение по сингулярным числам

Аннотация. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . 118 4.1 Введение. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

4.1.1 Основы. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 4.1.2. Чувствительность наименьшего сингулярного значения. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 4.1.3 Расстояние до сингулярности — псевдоспектр.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

4.2 Методы Якоби для плотных матриц. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.2.1 Двусторонняя схема Якоби [2JAC]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.2.2. Односторонняя схема Якоби [1JAC]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 4.2.3 Алгоритм [QJAC].. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 4.2.4. Блочные алгоритмы Якоби. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

4.3 Методы для больших и разреженных матриц. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 4.3.1 Разреженные хранилища и линейные системы. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . 133 4.3.2 Итерация подпространства [SISVD]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 4.3.3. Методы Ланцоша. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

4.3.3.1 Одновекторный метод Ланцоша [LASVD]. . . . . . . . . . . . . . . . . . . . . . . . 136 4.3.3.2 Блочный метод Ланцоша [BLSVD]. . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . 138

4.3.4 Метод минимизации следов [TRSVD]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 4.3.4.1 Методы полиномиального ускорения для [TRSVD]. . . . . . . . . . . . . . . . . . . 142 4.3.4.2 Стратегия перехода для [TRSVD]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

4.3.5 Уточнение левых сингулярных векторов. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . 144 4.3.6. Методы Дэвидсона. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

4.3.6.1 Общая структура методов. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 4.3.6.2 Чем отличаются методы Дэвидсона? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 4.3.6.3 Применение к вычислению наименьшего сингулярного значения. . . . . . . 151

4.4 Параллельное вычисление разреженных матриц.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 4.4.1. Параллельное умножение разреженной матрицы на вектор. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 4.4.2. Параллельная схема базовой ортогонализации. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 4.4.3. Вычисление наименьшего сингулярного значения на нескольких процессорах. . . . . . . . . . . . . . . . . 156

4.5 Приложение: параллельное вычисление псевдоспектра.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 4.5.1. Алгоритм параллельного следования по пути с использованием треугольников. . . . . . . . . . . . . . . . . . . . . . . . . . . 157 4.5.2 Ускорение и эффективность. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 4.5.3 Проблемы тестирования. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

Список литературы. . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

Целью обзора является обзор современного состояния вычислений разложения по сингулярным значениям (SVD) плотных и разреженных матриц с некоторым акцентом на те схемы, которые подходят для платформ параллельных вычислений. Для плотных матриц мы представляем те схемы, которые дают полное разложение, тогда как для разреженных матриц мы описываем схемы, которые дают только экстремальные особые тройки.Особое внимание уделяется вычислению наименьших сингулярных значений. которые обычно труднее всего оценить, но позволяют измерить расстояние до особенность рассматриваемой матрицы. Также мы завершаем презентацией параллельного метод вычисления псевдоспектров, который зависит от вычисления наименьших сингулярных значений.

Разложение по сингулярным числам для обработки и моделирования данных экспрессии в масштабе всего генома

Реферат

Мы описываем использование разложения по сингулярным значениям при преобразовании данных экспрессии в масштабе всего генома из пространства генов × массивов в сокращенное диагонализованное пространство «собственные гены» × «собственные массивы», где собственные гены (или собственные массивы) представляют собой уникальные ортонормированные суперпозиции генов (или массивов). ).Нормализация данных путем фильтрации собственных генов (и собственных массивов), которые, как предполагается, представляют шум или экспериментальные артефакты, дает возможность значимого сравнения экспрессии разных генов в разных массивах в разных экспериментах. Сортировка данных по собственным генам и собственным массивам дает общую картину динамики экспрессии генов, в которой отдельные гены и массивы, по-видимому, классифицируются на группы схожей регуляции и функции или схожего клеточного состояния и биологического фенотипа, соответственно. После нормализации и сортировки значимые собственные гены и собственные массивы могут быть связаны с наблюдаемыми общегеномными эффектами регуляторов или с измеренными образцами, в которых эти регуляторы являются сверхактивными или малоактивными, соответственно.

Технология микрочипов ДНК

(1, 2) и секвенирование генома продвинулись до такой степени, что теперь можно контролировать уровни экспрессии генов в геномном масштабе (3). Эти новые данные обещают улучшить фундаментальное понимание жизни на молекулярном уровне, от регуляции экспрессии генов и функций генов до клеточных механизмов, и могут оказаться полезными в медицинской диагностике, лечении и разработке лекарств.Для анализа этих новых данных требуются математические инструменты, которые можно адаптировать к большим объемам данных, при этом уменьшая сложность данных, чтобы сделать их понятными. До сих пор анализ ограничивался идентификацией генов и массивов со сходными паттернами экспрессии с использованием методов кластеризации (4–9).

Мы описываем использование разложения по сингулярным числам (SVD) (10) при анализе данных экспрессии в масштабе всего генома. SVD также известен как расширение Карунена – Лоэва в распознавании образов (11) и как анализ главных компонент в статистике (12).SVD — это линейное преобразование данных экспрессии из пространства генов × массивов в сокращенное пространство «собственные гены» × «собственные массивы». В этом пространстве данные диагонализованы, так что каждый собственный ген выражается только в соответствующем собственном массиве с соответствующим уровнем «собственного выражения», указывающим их относительную значимость. Собственные гены и собственные массивы являются уникальными и, следовательно, также управляемыми данными ортонормированными суперпозициями генов и массивов соответственно.

Мы показываем, что несколько важных собственных генов и соответствующие собственные массивы захватывают большую часть информации о выражениях.Нормализация данных путем фильтрации собственных генов (и соответствующих собственных массивов), которые, как предполагается, представляют шум или экспериментальные артефакты, дает возможность значимого сравнения экспрессии разных генов в разных массивах в разных экспериментах. Такая нормализация может улучшить любой дальнейший анализ данных экспрессии. Сортировка данных в соответствии с корреляциями генов (и массивов) с собственными генами (и собственными массивами) дает общую картину динамики экспрессии генов, в которой отдельные гены и массивы, по-видимому, классифицируются на группы схожей регуляции и функции, или аналогичное клеточное состояние и биологический фенотип соответственно.Эти группы генов (или массивы) определяются не общим сходством в экспрессии, а только сходством в экспрессии любого выбранного подмножества собственных генов (или собственных массивов). При сравнении двух или более аналогичных экспериментов, в которых регулятор является сверхактивным или недостаточно активным в одном, но обычно экспрессируется в других, паттерн экспрессии одного из значимых собственных генов может быть коррелирован с паттернами экспрессии этого регулятора и его мишеней. Следовательно, этот собственный ген может быть связан с наблюдаемым эффектом регулятора на весь геном. Паттерн экспрессии соответствующего собственного массива коррелирует с паттернами экспрессии, наблюдаемыми в образцах, в которых регулятор является сверхактивным или малоактивным. Следовательно, этот собственный массив может быть связан с этими выборками.

Мы пришли к выводу, что SVD обеспечивает полезную математическую основу для обработки и моделирования данных экспрессии в масштабе всего генома, в которой как математическим переменным, так и операциям может быть присвоено биологическое значение.

Математические основы: разложение по сингулярным значениям

Относительные уровни экспрессии N генов модельного организма, которые могут составлять почти весь геном этого организма, в одном образце, одновременно исследуются с помощью одного микрочипа.Серии массивов M , которые практически идентичны физически, исследуют уровни экспрессии в масштабе всего генома в M различных образцах, то есть в M различных экспериментальных условиях. Пусть матрица ê размером N -генов × M -массивов табулирует полные данные экспрессии. Каждый элемент ê удовлетворяет условию 〈 n | ê | м 〉 ≡ e нм для всех 1 ≤ n N и 1 ≤ м M , где e нм — относительный уровень экспрессии ген n th в образце m th, измеренный с помощью массива m th.§ Вектор в n -й строке матрицы ê, 〈 g n | ≡ 〈 n | ê, перечисляет относительную экспрессию гена n -го в разных образцах, которые соответствуют разным массивам. Вектор в m -м столбце матрицы ê, | а м 〉 ê | m 〉, перечисляет относительную экспрессию в масштабе всего генома, измеренную с помощью массива m th.

SVD (10) затем является линейным преобразованием данных экспрессии из пространства N -генов × M -массивов в уменьшенное пространство L — «собственные массивы» × L — пространство «собственных генов», где L = мин. { M , N } (см. Рис.7 в дополнительном материале на сайте www.pnas.org), 1 В этом пространстве данные представлены диагональной неотрицательной матрицей ê размером L -eigengenes × L -eigenarrays, которая удовлетворяет 〈 k | ɛ̂ | l 〉 ≡ ɛ l δ kl ≥ 0 для всех 1 ≤ k , l L , так что l th eigengene выражается только в соответствующем l -й собственный массив с соответствующим уровнем «собственной экспрессии» ɛ l .Следовательно, выражение каждого собственного поколения (или собственного массива) отделено от выражения всех других собственных генов (или собственных массивов). «Доля собственного выражения» 2 указывает на относительную значимость -1 -го собственного гена и собственного массива с точки зрения доли общего выражения, которое они фиксируют. Предположим также, что уровни собственного выражения расположены в порядке убывания значимости, так что 1 ≥ ɛ 2 ≥… ≥ L ≥ 0. «Энтропия Шеннона» набора данных, 3 измеряет сложность набора данных. данные из распределения общего выражения между различными собственными генами (и собственными массивами), где d = 0 соответствует упорядоченному и избыточному набору данных, в котором все выражения фиксируются одним собственным геном (и собственным массивом), а d = 1 соответствует неупорядоченному и случайному набору данных, в котором все собственные гены (и собственные массивы) выражены одинаково.

Матрицы преобразования û и v̂ T определяют базисные наборы N -генов × L -собственных массивов и L -собственных генов × M -массивов, соответственно. Вектор в l -й строке матрицы v̂ T , 〈γ l | ≡ 〈 l | v̂ T , перечисляет выражение l -го собственного гена в различных массивах. Вектор в l -м столбце матрицы û, | α l 〉 ≡ û | -1 〉, перечисляет общегеномную экспрессию в -1 -м собственном массиве. Собственные гены и собственные массивы являются ортонормированными суперпозициями генов и массивов, так что матрицы преобразования û и v̂ обе ортогональны 4, где Î — единичная матрица. Следовательно, выражение каждого собственного поколения (или собственного массива) не только развязано, но и декоррелировано от выражения всех других собственных генов (или собственных массивов). Собственные гены и собственные массивы уникальны, за исключением вырожденных подпространств, определяемых подмножествами одинаковых уровней собственной экспрессии, и за исключением фазового фактора ± 1, так что каждый собственный ген (или собственный массив) захватывает как параллельные, так и антипараллельные паттерны экспрессии генов (или массивов). .Следовательно, SVD управляется данными, за исключением вырожденных подпространств.

СВД Расчет.

Согласно ур. 1 и 4, массивы M × M — симметричная корреляционная матрица â = ê T ê = v̂ɛ̂ 2 T представлена ​​в L -eigengenes × L -собственное пространство диагональной матрицей ɛ̂ 2 . Корреляционная матрица N -генов × N -генов ĝ = êê T = ûɛ̂ 2 û T также представлена ​​в пространстве L -собственных массивов × L -собственных массивов. на ɛ̂ 2 , где для L = min { M , N } = M , ĝ имеет нулевое подпространство не менее N M нулевых собственных значений.Поэтому мы вычисляем SVD набора данных ê с M N , диагонализуя â, а затем проецируя полученные v̂ и ɛ̂ на ê, чтобы получить = êv̂ɛ̂ −1 .

Вывод шаблона.

Декорреляция собственных генов (и собственных массивов) предполагает возможность того, что некоторые из собственных генов (и соответствующие собственные массивы) представляют собой независимые регуляторные программы или процессы (и соответствующие клеточные состояния).Мы заключаем, что собственный ген | γ l 〉 представляет собой регуляторную программу или процесс, исходя из паттерна его экспрессии во всех массивах, когда этот паттерн поддается биологической интерпретации. Этот вывод может быть подтвержден соответствующей последовательной биологической темой, отраженной в функциях генов, паттерны экспрессии которых коррелируют или антикоррелируют с паттерном этого собственного гена. При этом мы предполагаем, что соответствующий собственный массив | α l 〉 (который перечисляет амплитуду этого паттерна собственных генов в экспрессии каждого гена | g n 〉 относительно всех других генов 〈 n | α l 〉 = 〈 g n | γ l 〉 / ɛ l ) представляет состояние клетки, которое соответствует этому процессу.Мы заключаем, что собственный массив | α l 〉 представляет клеточное состояние из массивов, чьи паттерны экспрессии коррелируют или антикоррелируют с паттерном этого собственного массива. После сортировки генов этот вывод может быть подтвержден паттерном экспрессии этого собственного массива по всем генам, если этот паттерн поддается биологической интерпретации.

Нормализация данных.

Разделение собственных генов и собственных массивов позволяет фильтровать данные без исключения генов или массивов из набора данных.Мы фильтруем любой из собственных генов | γ l 〉 (и соответствующий собственный массив | α l 〉) ê → ê — ɛ l | α l 〉 〈γ l |, заменив ноль на уровень собственного выражения ɛ l = 0 в диагональной матрице ɛ̂ и восстановив данные в соответствии с уравнением. 1. Мы нормализуем данные, отфильтровывая те собственные гены (и собственные массивы), которые, как предполагается, представляют шум или экспериментальные артефакты.

Вырожденное вращение подпространства.

Уникальность собственных генов и собственных массивов не выполняется в вырожденном подпространстве, определяемом равными уровнями собственного выражения. Мы аппроксимируем значимые аналогичные уровни собственной экспрессии ɛ л ≈ ɛ л +1 ≈… ≈ ɛ м с ɛ л =… = ɛ м =. Таким образом, уравнения. 1–4 остаются в силе при вращении соответствующих собственных генов {(| γ l 〉,…, | γ m 〉) → R̂ (| γ l 〉,…, | γ м 〉)}, и собственные массивы {(| α l 〉,…, | α м 〉) → R̂ (| α l 〉,…, | α м 〉)}, для всех ортогональных R̂, R̂ T R̂ = Î.Мы выбираем уникальное вращение R̂, подвергая повернутые собственные гены ограничениям м l , так что эти ограниченные собственные гены могут быть полезными при интерпретации и представлении данных выражения.

Сортировка данных.

Вывод о том, что собственные гены (и собственные массивы) представляют независимые процессы (и клеточные состояния), позволяет сортировать данные по сходству в выражении любого выбранного подмножества этих собственных генов (и собственных массивов), а не по общему сходству в выражении. Для двух собственных генов | γ k 〉 и | γ l 〉 (или собственных массивов | α k 〉 и | α l 〉), мы строим корреляцию | γ k 〉 с каждым геном | г n 〉, 〈γ k | г n 〉 / 〈 g n | g n 〉 (или | α k 〉 с каждым массивом | a m 〉) вдоль оси y , vs.| γ l 〉 (или | α l 〉) по оси x . На этом графике расстояние каждого гена (или массива) от источника — это его амплитуда экспрессии в подпространстве, охватываемом | γ k 〉 и | γ l 〉 (или | α k 〉 и | α l 〉) относительно его общего выражения r n ≡ 〈 g n | г n −1 (или r m ≡ 〈 a m | a m −1 ). Угловое расстояние каждого гена (или массива) от оси x является его фазой перехода от паттерна экспрессии | γ l 〉 к | γ k 〉 и обратно к | γ l 〉 (или | α l 〉 к | α k 〉 и обратно к | α l 〉) tan φ n ≡ 〈γ k | г n 〉 / 〈γ l | г n 〉, (или tan φ м ≡ 〈α k | a n 〉 / 〈α l | 3 a м 〉).Мы сортируем гены (или массивы) в соответствии с φ n (или φ m ).

Анализ биологических данных: клеточный цикл, синхронизированный отмучением

Spellman et al. (3) контролировали уровни мРНК по всему геному для 6108 ORF у почкующихся дрожжей Saccharomyces cerevisiae одновременно, примерно в течение одного периода клеточного цикла, T ≈ 390 мин, в дрожжевой культуре, синхронизированной отмучением, относительно эталона. мРНК из асинхронной дрожжевой культуры с 30-минутными интервалами.В анализируемом нами наборе данных об отмучении (см. Дополнительные данные и блокнот Mathematica на www.pnas.org и http://genome-www.stanford.edu/SVD/) приведены измеренные отношения уровней экспрессии генов для N = 5 981 гены, 784 из которых были классифицированы Spellman et al. , поскольку клеточный цикл регулируется, без пропущенных данных в M = 14 массивах.

Вывод шаблона.

Рассмотрим 14 собственных генов набора данных по отмыванию.Первый и наиболее значимый собственный ген | γ 1 〉, который описывает инвариантную во времени относительную экспрессию в течение клеточного цикла (рис. 8 a на www.pnas.org), захватывает более 90% общей относительной экспрессии в этом клеточном цикле. эксперимент (рис.8 б ). Энтропия набора данных поэтому низкая d = 0,14 ≪ 1. Это говорит о том, что лежащие в основе процессы проявляются слабыми возмущениями устойчивого состояния выражения. Это также предполагает, что неизменные во времени аддитивные константы из-за неконтролируемых экспериментальных переменных могут быть наложены на данные.Мы делаем вывод, что | γ 1 〉 представляет собой экспериментальные аддитивные константы, наложенные на стабильное состояние экспрессии гена, и предполагаем, что | α 1 〉 представляет соответствующее устойчивое клеточное состояние. Второй, третий и четвертый собственные гены, которые демонстрируют колебания во время клеточного цикла (Fig. 8 c ), захватывают около 3%, 1% и 0,5% от общей относительной экспрессии, соответственно. Изменение во времени | γ 3 соответствует нормированной синусоидальной функции периода T, sin (2π t / T ).Мы пришли к выводу, что | γ 3 〉 представляет колебания экспрессии, которые согласуются с колебаниями экспрессии генов во время клеточного цикла. Изменения во времени второго и четвертого собственных генов соответствуют функции косинуса периода T с амплитудой нормализованного косинуса с этим периодом, cos 2π t / T . Однако, в то время как | γ 2 〉 показывает убывающее выражение при переходе от t = 0 к 30 мин, | γ 4 〉 показывает возрастающее выражение.Мы пришли к выводу, что | γ 2 〉 и | γ 4 〉 представляют начальное временное увеличение и снижение экспрессии в ответ на отмучивание, соответственно, наложенные на колебания экспрессии во время клеточного цикла.

Нормализация данных.

Мы отфильтровываем первый собственный ген и собственный массив набора данных об отмучивании, ê → ê C = ê — ɛ 1 | α 1 〉 〈γ 1 |, удаляя устойчивое состояние выражения.Каждый из элементов набора данных ê C , 〈 n | ê C | m 〉 ≡ e C , нм , это разница измеренной экспрессии гена n -го в массиве m -го от стационарных уровней экспрессии этого гена. и массив, рассчитанный SVD. Следовательно, e C , нм 2 — это дисперсия измеренной экспрессии гена n -го в массиве m -го.Пусть ê LV табулирует натуральный логарифм дисперсии в выражении отстойности, так что каждый элемент ê LV удовлетворяет 〈 n | ê LV | м 〉 ≡ log ( e C , нм 2 ) для всех 1 ≤ n N и 1 ≤ м M , и учитывать собственные гены ê LV (рис.9 a в дополнительных материалах на сайте www.pnas.org). Первый собственный ген | γ 1 LV , который захватывает более 80% общей информации в этом наборе данных (рис. 9 b ), описывает слабое начальное переходное увеличение, наложенное на неизменный во времени масштаб дисперсии выражения. Первоначальное временное увеличение шкалы дисперсии экспрессии может быть ответом на отмучивание. Неизменный во времени масштаб дисперсии экспрессии предполагает, что с данными экспрессии связан устойчивый масштаб экспериментальной, а также биологической неопределенности.Это также предполагает, что неизменные во времени мультипликативные константы из-за неконтролируемых экспериментальных переменных могут быть наложены на данные. Мы отфильтровываем | γ 1 LV , удаляя устойчивую шкалу дисперсии экспрессии, ê LV → ê CLV = ê LV 1, LV | α 1 LV LV 〈γ 1 |.

Нормализованный набор данных по отстаиванию ê N , где каждый из его элементов удовлетворяет 〈 n | ê N | m 〉 ≡ ( e C , нм ), табулирует для каждого гена и паттернов экспрессии массива, которые приблизительно сосредоточены на уровне устойчивой экспрессии (т.е. приблизительно нулевого среднего арифметического) с отклонениями, которые приблизительно нормализованы устойчивой шкалой дисперсии выражения (то есть приблизительно единичным средним геометрическим). Первый и второй собственные гены, | γ 1 N и | γ 2 N , ê N (рис.1 a ), которые имеют одинаковые значимость, охватывают вместе более 40% общей нормализованной экспрессии (рис. 1 b ).Временные изменения | γ 1 N и | γ 2 N соответствуют нормированным функциям синуса и косинуса периода T и начальной фазы θ ≈ 2π / 13, sin (2π t / T — θ) и cos (2π t / T — θ) соответственно (рис.1 c ). Мы делаем вывод, что | γ 1 N и | γ 2 N представляют колебания экспрессии клеточного цикла, и предполагаем, что соответствующие собственные массивы | α 1 N и | α 2 N представляют соответствующие клеточные состояния клеточного цикла.При сортировке генов (и массивов) по | γ 1 N и | γ 2 N (и | α 1 N и | α 2 N ) начальную фазу θ ≈ 2π / 13 можно интерпретировать как задержку в 30 мин между началом эксперимента и стадией клеточного цикла G 1 . Спад до нуля во временном изменении | γ 2 N при t = 360 и 390 мин можно интерпретировать как расфазировку во времени первоначально синхронизированной культуры дрожжей.

Рисунок 1

Нормализованные собственные гены отмучивания. ( a ) Растровое отображение v̂ N T , выражение 14 собственных генов в 14 массивах. (b ) Гистограмма долей собственной экспрессии, показывающая, что | γ 1 N и | γ 2 N захватывают около 20% общей нормализованной экспрессии каждая, и высокая энтропия d = 0,88. ( c ) Линейные графики уровней экспрессии | γ 1 N (красный) и | γ 2 N (синий) в 14 массивах соответствуют пунктирным графикам нормализованного синуса (красный) и косинуса (синий) периода T = 390 мин и фазы θ = 2π / 13 соответственно.

Сортировка данных.

Рассмотрим нормализованное выражение для 14 массивов отмучивания {| a m 〉} в подпространстве, охватываемом | α 1 N и | α 2 N , что, как предполагается, приблизительно представляет все клеточные состояния клеточного цикла. (Рис.2 и ). Все массивы имеют по крайней мере 25% их нормализованного выражения в этом подпространстве с их расстояниями от начала координат, удовлетворяющими 0.5 ≤ r m <1, кроме одиннадцатого массива | а 11 〉. Это говорит о том, что | α 1 N и | α 2 N достаточно для аппроксимации выражения массива отмучивания. Сортировка массивов по их фазам {φ m }, которая описывает переход от паттерна экспрессии | α 2 N к | α 1 N и назад к | α 2 N , дает порядок массива, который аналогичен порядку точек времени клеточного цикла, измеренному массивами, порядку, который описывает прогресс выражения клеточного цикла из M / G 1 перейти к G 1 , S, S / G 2 и G 2 / M и обратно к M / G 1 .

Рисунок 2

Нормализованная экспрессия отмучивания в подпространстве, связанном с клеточным циклом. ( a ) Корреляция массива с | α 1 N по оси y по сравнению с | α 2 N по оси x , цвет -кодируется в соответствии с классификацией массивов на пять стадий клеточного цикла, M / G 1 (желтый), G 1 (зеленый), S (синий), S / G 2 (красный) и G 2 / M (оранжевый).Пунктирная единица и кружки в полублоках очерчивают 100% и 25% общего нормированного выражения массива в подпространстве | α 1 N и | α 2 N . (b ) Корреляция каждого гена с | γ 1 N по сравнению с | γ 2 N , для 784 генов регулируемых клеточного цикла, обозначенных цветом в соответствии с классификация Spellman et al. (3).

Поскольку | α 1 N коррелирован с массивами | а 4 〉, | а 5 〉, | а 6 〉, и | a 7 〉 и антикоррелирован с | а 13 〉 и | a 14 〉, мы связываем | α 1 N с клеточным состоянием перехода клеточного цикла от G 1 к S, и — | α 1 N с переходом с G 2 / M на M / G 1 .Аналогично, | α 2 N коррелирует с | а 2 〉 и | a 3 〉, поэтому мы связываем | α 2 N с переходом от M / G 1 к G 1 . Также | α 2 N антикоррелирован с | а 8 〉 и | a 10 〉, поэтому мы связываем — | α 2 N с переходом от S к S / G 2 .С этими ассоциациями фаза | a 1 〉, φ 1 = −θ ≈ −2π / 13, соответствует 30-минутной задержке между началом эксперимента и стадией клеточного цикла G 1 , которая также присутствует в предполагаемых колебаниях экспрессии клеточного цикла | γ 1 N и | γ 2 N .

Учитывайте также экспрессию 5 981 гена {| g n 〉} в подпространстве, охватываемом | γ 1 N и | γ 2 N , что, как предполагается, приблизительно представляет все колебания экспрессии клеточного цикла. (Инжир.10 в дополнительных материалах на сайте www.pnas.org). Можно ожидать, что гены, которые имеют почти всю свою нормализованную экспрессию в этом подпространстве с r n ≈ 1, регулируются клеточным циклом, и что гены, которые почти не экспрессируются в этом подпространстве с r n ≈ 0, совершенно не регулируются клеточным циклом. Действительно, из 784 генов, классифицированных Spellman et al. (3), поскольку клеточный цикл регулируется, 641 имеют более 25% своей нормализованной экспрессии в этом подпространстве (рис.2 б ). Мы сортируем все 5 981 ген в соответствии с их фазами {φ n }, чтобы описать переход от паттерна экспрессии | γ 2 N к паттерну | γ 1 N и обратно к | γ 2 N , начиная с φ 1 ≈ −2π / 13. Можно ожидать, что это упорядочит гены в соответствии со стадиями клеточного цикла, на которых их паттерны экспрессии достигают пика. Однако для 784 генов, регулируемых клеточным циклом, такая сортировка дает классификацию генов на пять стадий клеточного цикла, что несколько отличается от классификации Spellman et al. Это может быть связано с плохим качеством данных экспрессии отмучивания, поскольку синхронизация отмучением не была очень эффективной в этом эксперименте. Для экспрессии клеточного цикла, синхронизированной с α-фактором, существует гораздо лучшее согласие между двумя классификациями (рис. 5 b ).

При всех отсортированных 5981 генах вариации генов | α 1 N и | α 2 N соответствуют нормированным функциям синуса и косинуса периода Z N — 1 = 5,980 и начальная фаза θ ≈ 2π / 13, — sin (2π z / Z — θ) и cos (2π z / Z — θ) соответственно, где z n -1 (рис.3 b и c ). Отсортированная и нормализованная экспрессия элютриации соответствует приблизительно бегущей волне экспрессии, синусоидально изменяющейся как для генов, так и для массивов, так что экспрессия n -го гена в m -м массиве удовлетворяет 〈 n | ê N | м 〉 ∝ −2 cos [2π ( t / T z / Z )] / (рис. 3 a ).

Рисунок 3

Гены, отсортированные по относительной корреляции с | γ 1 N и | γ 2 N нормализованного отмучивания.( a ) Нормализованная элютационная экспрессия отсортированных 5 981 гена в 14 массивах, показывающая бегущую волну экспрессии. ( b ) Выражение собственных массивов; выражение | α 1 N и | α 2 N , собственные массивы, соответствующие | γ 1 N и | γ 2 N , отображает сортировку. ( c ) Уровни экспрессии | α 1 N (красный) и | α 2 N (зеленый) соответствуют нормированным функциям синуса и косинуса периода Z N — 1 = 5,980 и фаза θ ≈ 2π / 13 (синий цвет) соответственно.

Анализ биологических данных: клеточный цикл, синхронизированный с α-фактором, и гиперактивация

CLB2 и CLN3

Spellman et al. (3) также контролировал уровни мРНК по всему геному для 6108 ORF дрожжей одновременно в течение примерно двух периодов клеточного цикла в дрожжевой культуре, синхронизированной с помощью фактора α, относительно эталонной мРНК из асинхронной культуры дрожжей, с 7-минутными интервалами. на 119 мин. Они также измерили в двух независимых экспериментах уровни мРНК культур дрожжевых штаммов с сверхактивированным CLB2 , который кодирует циклин G 2 / M, оба при t = 40 мин относительно их уровней в начале сверхактивации т = 0.В двух дополнительных независимых экспериментах измеряли уровни мРНК культур штаммов с чрезмерно активированным CLN3 , который кодирует циклин G 1 / S, при t = 30 и 40 мин относительно их уровней в начале сверхактивации при t = 0. Набор данных для α-фактора, экспериментов CLB2 и CLN3 , которые мы анализируем (см. Дополнительные данные и блокнот Mathematica на www.pnas.org), содержит табулированные отношения уровней экспрессии генов для N = 4579 генов, 638 из которых были классифицированы Spellman et al., поскольку клеточный цикл регулируется, без пропущенных данных в M = 22 массивах.

После нормализации данных и вырожденного вращения подпространства (см. Приложение в дополнительном материале на www.pnas.org) изменения во времени | γ 1 RN и | γ 2 RN соответствуют нормированным функциям синуса и косинуса двух 66-минутных периодов во время клеточного цикла, от t = 7 до 119 минут и начальной фазы θ ≈ π / 4, соответственно (рис.4 с ). В то время как | γ 2 RN описывает стационарную экспрессию в CLB2 — и CLN3 -активных массивах, | γ 1 RN описывает недоэкспрессию в CLB2 — сверхактивные массивы и сверхэкспрессия в CLN3 -верактивных массивах.

Рисунок 4

Повернутый нормализованный коэффициент α, CLB2 и CLN3 собственных генов. ( a ) Растровое отображение RN T , где | γ 1 RN = R̂ 2 1 | γ 1 N , | γ 2 RN = R̂ 1 | γ 2 N и | γ 3 RN = R̂ 2 | γ 3 N .( b ) | γ 1 RN , | γ 2 RN и | γ 3 RN захватывают 20% общей нормализованной экспрессии каждый. ( c ) Уровни экспрессии | γ 1 RN (красный) и | γ 2 RN (синий) соответствуют пунктирным графикам нормализованного синуса (красный) и косинуса (синий ) периода T /2 = 66 мин и фазы π / 4 соответственно, а | γ 3 RN (зеленый) соответствует пунктирному графику нормированного синуса периода T = 112 мин и фазы −π / 8, от t = 7 до t = 119 мин в течение клеточного цикла.

После сортировки 4579 генов в подпространстве, охватываемом | γ 1 RN и | γ 2 RN (рис. 5 b ), | γ 1 RN коррелирует с генами, которые достигают пика в конце стадии клеточного цикла G 1 и в начале S, среди них CLN3 , и мы связываем | γ 1 RN с экспрессией клеточного цикла. колебания, которые начинаются при переходе от G 1 к S и зависят от CLN3 , который кодирует циклин G 1 / S.Кроме того, | γ 1 RN антикоррелирован с генами, пик которых наблюдается в конце G 2 / M и в начале M / G 1 , среди них CLB2 , и поэтому мы связываем — | γ 1 RN с колебаниями, которые начинаются при переходе от G 2 / M к M / G 1 и зависят от CLB2 , который кодирует циклин G 2 / M. Точно так же | γ 2 RN коррелирует с генами, пик которых наступает в конце M / G 1 и в начале G 1 , антикоррелирован с генами, пик которых достигается в конце S и в начале S / G . 2 и не коррелирует с CLB2, и CLN3. Мы, таким образом, ассоциируем | γ 2 RN с колебаниями, которые начинаются при переходе от M / G 1 к G 1 (и кажутся CLB2 — и CLN3 -независимые), и — | γ 2 RN с колебаниями, которые начинаются при переходе от S к S / G 2 (и кажутся независимыми от CLB2 и CLN3 ) .

Рисунок 5

повернутый нормализованный фактор α, CLB2 и CLN3 экспрессия в подпространстве, связанном с клеточным циклом.( a ) Корреляция массива с | α 1 RN по оси y по сравнению с | α 2 RN по оси x , цвет -кодируется в соответствии с классификацией массивов на пять стадий клеточного цикла, M / G 1 (желтый), G 1 (зеленый), S (синий), S / G 2 (красный) и G 2 / M (оранжевый). Пунктирная единица и кружки в полублоках очерчивают 100% и 25% общего нормированного выражения массива в подпространстве | α 1 RN и | α 2 RN .( b ) Корреляция каждого гена с | γ 1 RN по сравнению с | γ 2 RN , для 638 генов, регулируемых клеточным циклом, обозначенных цветом в соответствии с классификация Spellman et al. (3).

После сортировки 22 массивов в подпространстве, охватываемом | α 1 RN и | α 2 RN (рис.5 a ), | α 1 RN коррелирован с массивами | а 13 〉 и | а 14 〉, а также с | а 21 〉 и | a 22 〉, которые измеряют CLN3 -активные образцы.Таким образом, мы связываем | α 1 RN с клеточным состоянием перехода клеточного цикла от G 1 к S, которое моделируется сверхактивацией CLN3 . Также | α 1 RN антикоррелирован с массивами | а 9 〉 и | а 10 〉, а также с | а 19 〉 и | a 20 〉, которые измеряют CLB2 -активные образцы.Мы связываем — | α 1 RN с клеточным переходом от G 2 / M к M / G 1 , который моделируется сверхактивацией CLB2 . Аналогично, | α 2 RN , по-видимому, коррелирует с | а 2 〉, | а 3 〉, | а 11 〉, и | а 12 〉, антикоррелированный с | а 6 〉, | а 7 〉, | а 16 〉, и | a 17 〉 и не коррелирует с | а 19 〉, | а 20 〉, | а 21 〉, или | а 22 〉.Поэтому мы связываем | α 2 RN с сотовым переходом от M / G 1 к G 1 (который, по-видимому, не зависит от CLB2 — и CLN3 ), и — | α 2 RN с сотовым переходом от S к S / G 2 (который также оказывается независимым от CLB2 и CLN3 ).

При сортировке всех 4579 генов вариации генов | α 1 RN и | α 2 RN соответствуют нормированным функциям синуса и косинуса периода Z N — 1 = 4578 и начальная фаза π / 8 соответственно (рис.6 b и c ). Нормализованная и отсортированная экспрессия клеточного цикла приблизительно соответствует бегущей волне, синусоидально изменяющейся как для генов, так и для массивов. Нормализованная и отсортированная экспрессия в гиперактивных массивах CLB2 — и CLN3 приблизительно соответствует стоячим волнам, постоянным по массивам и синусоидальным колебаниям только по генам, которые выглядят аналогично — | α 1 RN и | α 1 RN соответственно (рис.6 а ).

Рисунок 6

Гены, отсортированные по относительной корреляции с | γ 1 RN и | γ 2 RN повернутого нормализованного α-фактора, CLB2 и CLN3. ( a ) Нормализованная экспрессия отсортированных 4579 генов в 22 массивах, показывающая бегущую волну экспрессии от t = от 0 до 119 минут во время клеточного цикла и стоячие волны экспрессии в CLB2 — и CLN3 — активные массивы.( b ) Выражение собственных массивов; выражение | α 1 RN и | α 2 RN , собственные массивы, соответствующие | γ 1 RN и | γ 2 RN , отображает сортировку. ( c ) Уровни экспрессии | α 1 RN (красный) и | α 2 RN (зеленый) соответствуют нормированным функциям синуса и косинуса периода Z N — 1 = 4578 и фаза π / 8 (синий цвет) соответственно.

Выводы

Мы показали, что SVD обеспечивает полезную математическую основу для обработки и моделирования данных экспрессии в масштабе всего генома, в которой как математическим переменным, так и операциям может быть присвоено биологическое значение.

Благодарности

Мы благодарим С. Кима за содержательные обсуждения, Дж. Шерлока за техническую помощь и внимательное чтение, а также Дж. Дойла и П. Грина за вдумчивые рецензии на эту рукопись.Эта работа была поддержана грантом Национального института рака (Национальные институты здоровья, CA77097). О.А. является докторантом Альфреда П. Слоана и Министерства энергетики США в области вычислительной молекулярной биологии, а также дипломированным научным сотрудником Национального института исследования генома человека в области геномных исследований и анализа (Национальные институты здравоохранения, 1 K01 HG00038-01). P.O.B. является младшим исследователем Медицинского института Говарда Хьюза.

Сноски