esquire.ru Если из любой книги последовательно выписать все слова, которые обозначают цвет и нанести эти цвета на бумагу, то можно получить портрет произведения.
Там в комментах пишут, что это баг. Программа считает как цвет, например, прилагательные в словосочетаниях "Красная Армия", "черная магия", "белый свет" и т.д. Плюс к тому, "золотой" цвет включен к желтому, поэтому Библия свою желтизну на счет этого и набрала, только "золотой там обозначает не цвет, а материал (всякие там золотые тельцы, золотые чаши и т.д.)
Я пробовал написать робота, который по лексикографии вычисляет автора. Увы, роботы тут бессильны -- даже я, имевший на тот момент трёх виртуалов, его с лёгкостью обманул.
Я писал робота для анализа блогов -- там "словарь Эллочки-людоедки" работает :) О каких десятках тысяч ты говоришь, окстись? :) Примерно 3-4.5 тысячи лексем... Но на этом спектре робот работает с массой ошибок. Проект забросил за бесперспективностью. При наличии (тогда) трёх виртуалов я своего же робота "развёл" в чистую.
Но я не филолог, я просто был программер. Может, чего-то и упустил.
Методика убогая и примитивная, не различает значений (как у красного), не учитывает цветов, обозначенных существительными (типа синь), глаголами (типа зеленел) и сложными прилагательными (типа сине-зеленый), и массу оттенков, которые тоже не попали (например, масака у Льва Николаича). В таком деле надо семантические поля строить - дело, в общем-то не особо хитрое и вполне себе программируемое.
Ну а для совсем корректного анализа следует брать в расчет косвенные обозначения - через сравнения и метафоры. Тут уж компьютерная выборка не поможет, только по старинке, с книжечкой и карандашом...