green_fr | Pour la science № 507

Статья про то, кто написал пьесы ~~Шекспира~~ Мольера. Оказывается, есть и такая тема. Аргументы примерно те же: а) не мог тупой актёришко так хорошо писать и б) где он был первые 40 лет жизни, и откуда мог потом взяться талант? В роли Бэкона выступает Корнель — «серьёзный» автор, которому не пристало писать всякую там ерунду под своим именем.

Меня, понятное дело, заинтересовали не исторические разборки, а компьютерно-лингвистические. В самом начале 2000-х годов французские лингвисты посчитали частоту слов у Корнеля и Мольера и сделали вывод о близости двух авторов, позволяющей предположить единое авторство. Но с тех пор наука шагнула чуть дальше, об этом, собственно, статья. Авторы используют шесть различных методов, все более-менее основаны на unsupervised learning, то есть способности компьютерной программы автоматически группировать некие предметы по какой-то внутренней похожести. Программе скармливали 37 пьес 5 авторов (в том числе Мольера с Корнелем), потом смотрели, как она группировала эти пьесы. Сразу спойлер: три метода «правильно» сгруппировали мольеров с мольерами, а корнелей с корнелями, ещё два «ошиблись» в аттрибуции 1 пьесы, и ещё один — 2 пьес. То есть, в общем выходит, что никто ничего ни за кого не писал.

Методы отличаются определением критерия похожести:
* Частота употребления слов. Это тот же критерий, что в первых работах, но методология другая — вместо «человеческого» сравнения полученных распределений, мы оставляем право окончательного вывода искусственному интеллекту.
* Тот же критерий, но сгруппированы разные формы одного и того же слова — и наоборот, разведены омонимы. Забавно, что по-французски эти «группы слов / разных форм одного слова» называются словом лемма. Русского варианта Википедия не даёт.
* Можно смотреть не на все слова, а на те, над которыми автор явно думал чуть больше, чем над всеми остальными — последние слова каждой строки, то есть те, которые несут на себе рифму.
* А можно наоборот, смотреть на слова, которые привлекали наименьшее количество сознательного внимания автора — вспомогательные слова типа «и», «а», «но», «ибо».
* Пятый вариант — чисто компьютерный, когда текст рассматривается не как последовательность слов, а как последовательность символов (без пунктуации, но с пробелами). Он разбивается на группы по 5 символов, с перекрытиями (первые 5 символов, потом 5 символов, начинающихся со второй буквы, и т.д.)
* Последний вариант — смотреть не на слова или буквы, а на структуру фразы. То есть, заменить каждое конкретное слово — его классом и функцией: подлежащее, сказуемое, дополнение, эпитет / существительное, местоимение, глагол.

Во Франции есть прекрасное произведение архитектуры — идеальный дворец почтальона Шеваля (если кто не в курсе — настоятельно рекомендую посмотреть хотя бы фотографии Википедии, впечатляет). В двух словах: сельский почтальон начал собирать красивенькие камушки, а потом построил из них красивенький дворец. Построил, как смог представить, получилось эклектичненько.

Я никогда не задумывался, откуда вообще сельский почтальон знал о существовании каких-то заморских цивилизаций? А у него там полно отсылок и к Египту, и к Месопотамии. Понятно, что у него явно было какое-то образование (Википедия пишет про 6 лет школы и «фонетическое письмо»), но этого же явно недостаточно. А тут про него в журнале целая статья (она вообще-то скорее про геологию — как так получилось, что в той местности реально красивые камушки). Пишут, что он познакомился с шедеврами мировой истории и архитектуры по рассылаемым по почте открыткам.

Интересно, конечно, что творится в голове у почтальона, когда он бросает в почтовый ящик открытку из страны, где он не будет никогда.

Статья о том, почему мы лучше скользим на более вязких жидкостях (проще поскользнуться на масле, чем на воде). Сначала авторы объясняют, почему мы не скользим, и что такое трение — это просто физический контакт двух неровных поверхностей, когда выступы одной поверхности цепляются за выступы другой. Жидкость может заполнить углубления, как бы сгладив обе поверхности, и если жидкости больше, чем нужно, чтобы сделать обе поверхности гладкими, то между поверхностями остаётся слой жидкости — чем меньше вязкость, тем проще она деформируется, то есть тем проще нам скользить.

Но из практики мы знаем, что нет, масло таки более скользкое. Потому что есть эффект вытекания жидкости: наступив на лужу, мы очень быстро выдавливаем воду из-под ноги, снова обретая контакт с дном лужи. А масло вытекает в 100 раз медленнее (у него вязкость на два порядка выше), и мы успеваем поскользнуться.

Статья на самом деле о том, как мы скользим на льду — по этой же логике, лёд не должен быть скользким, и все эти истории о том, что под коньком лёд плавится, и мы скользим как бы по слою воды, они никак не кроются цифрами. Оказывается, лёд немного плавится, немного крошится, и под коньком получается смесь воды с мелкими кусочками льда (примерно как итальянская гранита — я был уверен, что оно «граните», а это то ли итальянское множественное число, то ли французская версия слова), а она достаточно вязкая, чтобы обеспечить эффект скольжения.

Flat | Top-Level Comments Only

From:

l-i-d-y-a.livejournal.com

По-русски это тоже называется лемма. Соответственно, приведение текста к "нормальной" форме - лемматизация.

green-fr.livejournal.com

Спасибо!

Точно, есть такое слово (https://ru.wikipedia.org/wiki/%D0%9B%D0%B5%D0%BC%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F)!

Калька с английского. В компьютерной лингвистике используется очень широко.

son-de-la-voix.livejournal.com

Французская википедия говорит, что гранита и граните - похожие, но разные вещи:
La préparation de la granita est unique et donne une consistance ai fiocchi (traduction en français : aux flocons), et donc cet aspect de neige au produit fini, obtenu en respectant une phase précise de solidification de la solution eau et sucre1. La recette ne ressemble aucunement au « granité », souvent vendu sous le nom de granita, mais qui est en fait de la glace pilée aromatisée.

Ой, ёк, я до таких дебрей не дочитал, спасибо :-)

S	M	T	W	T	F	S
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

It's all in your mind

Pour la science № 507

Pour la science № 507

no subject

no subject

no subject

no subject

no subject

no subject

Profile

May 2025

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags