Центральные понятия в математической теории информации – понятия информации и ее количества.
Понятие информации – одно из фундаментальных в современной науке. Информацию наряду с веществом и энергией рассматривают в качестве важнейшей сущности мира. Формально определить понятие «информация» чрезвычайно сложно.
В простейшем бытовом понимании с термином «информация» обычно ассоциируются некоторые сведения, данные, знания и т.п. Информация передается в виде сообщений, которые и представляют форму существования информации. Примеры сообщений: музыкальное произведение, телепередача, команды регулировщика на перекрестке, распечатанный на принтере текст, результат работы компьютерной программы и т.д. При этом предполагается, что имеются «источник информации» и «получатель информации».
Сообщение от источника к получателю передается посредством какой-нибудь среды, называемой в таком случае «каналом связи». Так, при передаче речевого сообщения в качестве такого канала связи можно рассматривать воздух, в котором распространяются звуковые волны, а в случае передачи письменного сообщения (например, текста, распечатанного на принтере) каналом сообщения можно считать лист бумаги, на котором напечатан текст.
Наше первое предложение заключается в том, чтобы при определении информации рассматривать несколько каналов связи. При этом информация, поступающая по одному каналу, может пояснять и уточнять информацию, поступающую по другому каналу.
Наше второе предложение заключается в том, чтобы вести неопределенность как естественный и неотъемлемый атрибут информации. Это значит, что значения атрибутов объектов материального мира должны описываться не только с помощью привычных символов (например, 0 и 1 при двоичной кодировке), но и с помощью символа – «не определено».
Наше третье предложение заключается в том, чтобы учесть процессы кодирования при оценке количества получаемой информации.
При выборке по k символам слов из словаря объема M естественно считать, что мы получаем -log2(Di/M) бит информации, где Di - количество слов, вырезаемое из словаря последовательностью из k символов. Можно подсчитать количество информации, передаваемое с i-м символом в m-м слове:
Тогда естественно получается следующая минимальная оценка информационного объема словаря:
, (1)
где Km - длина слова в словаре.
Если считать, что энтропия H – средняя длина слов, используемых при двоичном кодировании , то получим, что количество информации I, приходящееся на 1 символ слова из k букв (при двоичном кодировании), определяется так:
Среднее количество информации приходящееся на один символ:
Lср – средняя длина слова в словаре.
С учетом первых трех предложений количество информации содержащееся в одном слове сообщения:
Im- может быть получено из (1) с пересчетом по троичному логарифму, г – количество листьев в дереве классификации слов в словаре, n – количество каналов.
Наиболее интересна формула для количества информации в отрезке слова m от символа номер kiдо символа номерli в следующей записи:
.
На основе этой формулы малоинформативные символы могут объединяться с соседними символами (по правилам морфологии, чтобы избавиться от лишних вычислений для естественных языков), несущими больше информации, образуя устойчивые сочетания, зависящие от местоположения в слове: приставки, корни, суффиксы, окончания. Причем одни те же сочетания, стоящие в слове на разных местах, получают неодинаковые, но близкие коды, однозначно идентифицирующие их место с использованием символа неопределенности в случае необходимости (что может потребоваться для распознавания слитной речи).
Объектный подход является абстракцией алгоритмического подхода к определению информации. Пусть имеются некоторое множество возможных «событий» U, о которых требуется посылать сообщения. Пусть имеется также некоторый d-символьный алфавит для формирования этих сообщений в виде цепочек символов на этом алфавите. Пусть имеется некоторая функция для интерпретации этих сообщений (* - множество всех конечных цепочек в алфавите ):
: * U.
Через |w| будем обозначать число символов (вхождений букв) в слове w. Тогда количеством информации в событии x относительно интерпретации в объектном смысле (в d-адической кодировке) будемсчитать
I (x) = min{|w|: w*, (w) = x}.
При d = 2 единица измерения такой информации называется дит (dit – dyadic digit – диадическая цифра). Количество информации в сообщении wотносительно интерпретации в объектном смысле определяется равенством I (w) =I ((w)). Основной недостаток такого подхода – неэффективность: значение
min{|w|: w*, (w) = x}
иногда очень трудно (если вообще возможно) вычислить. Один из способов обойти этот недостаток – введение кодирующей функции :
:U*
со следующим свойством: ((x)) = x для любого xиз U. Тогда количество информации в объекте xотносительно интерпретации и кодировки определяется равенством
I, (x) = |(x)|.
Количество информации в сообщении wотносительно интерпретации и кодировки определяется равенством I, (w) =I, ((w)). Основной недостаток такого варианта определения количества информации – чрезмерная зависимость от кодировки.
Другой общий недостаток объектного подхода – неаддитивность: количество информации, переданное двумя сообщениями, вообще говоря, не равно сумме количеств информации в этих сообщениях, а может содержать, например, ещё и логарифмическую добавку, так как длина сообщения также содержит некоторую информацию.
Библиографическая ссылка
Бельтюков А.П., Тетерин А.Н. О КОЛИЧЕСТВЕ ИНФОРМАЦИИ // Научный электронный архив.
URL: http://econf.rae.ru/article/4656 (дата обращения: 23.01.2025).