Меню Рубрики

Части информации с точки зрения семантики

Существует точка зрения, согласно которой «Информационная семантика – это направление в моделировании смысла фраз на естественном языке, основанное на анализе количества переданной информации» [1]. Недостатком этого подхода является то, что под количеством переданной информации понимают информационный объем передаваемых сообщений. Это обусловлено применением теории информации, созданной на основе работ К.Э. Шеннона [2] Эта теория информации, названая Н. Винером статистической [3], не рассматривает проблемы смысла и семантики. Об этом заявил сам К.Э. Шеннон «Проблемы передачи информации не релевантны семантическим проблемам» [3]. Поэтому использовать инструментарий для изучения семантики, который исключает эту возможность, выглядит странным.

Точка зрения, отражаемая в данной статье, звучит иначе. «Информационная семантика – это направление в информационном моделировании, основанное на применение семантических информационных моделей и семантических информационных единиц и анализа их смысловых и интерпретационных характеристик».

Основная часть. Проведем сравнение естественного языка и языка информатики. При этом примем во внимание то, что основой языка информатики являются информационные конструкции, семантические информационные единицы и структурные информационные единицы.

С когнитивной точки зрения естественный язык (ЕЯ) [4] представляет знаковую систему, отражающую жизненный опыт человека и его взаимодействия с окружением в форме, приспособленной для передачи другим людям и для организации собственного оптимального поведения. С формальной точки зрения естественный язык представляет знаковую систему, содержащую алфавит, совокупность лингвистических единиц-слов, совокупность словарей интерпретирующих эти слова, совокупность правил употребления и интерпретации этих слов.

С формальной точки зрения информационный язык [5] представляет знаковую систему, содержащую информационные единицы (алфавит), совокупность сложных семантических единиц – слов, совокупность тезаурусов интерпретирующих эти семантические единицы, совокупность правил построения и интерпретации семантических информационных единиц. Различие в том, что все слова в естественном языке переносят смысл и имеют информационный объем.

В языке информатики есть информационные единицы – носители информации. Их также называют структурные информационные единицы. И есть информационные единицы, содержащие смысл, которые называют семантические информационные единицы. Как элементы сложной системы – языка, эти информационные элементы характеризуются неделимостью, связанной с критерием делимости. Структурная неделимость приводит к элементу – символ, который специального смысла не имеет. В некоторых случаях структурная неделимость в ЯИ приводит к слову. Смысловая неделимость определяет семантические информационные единицы [6] (СИЕ).

Смысловая сигнификативная неделимость определяет семантическую информационную единицу слово Смысловая предикативная неделимость определяет семантическую информационную единицу предложение. Смысловая ассоциативная неделимость определяет семантическую информационную единицу фразу.

Между перечисленными информационными единицами существуют отношения иерарахии. Слово есть совокупность символов. Интерпретация слова осуществляется с помощью словарей и тезаурусов.

Предложение – совокупность слов, выражающих законченную мысль. Интерпретация предложения осуществляется на основе соотнесения его смысла с действительностью.

Фраза совокупность предложений, выражающих законченную мысль, некоторые их которых не могут быть интерпретированы без других предложений в этой фразе. Все выше перечисленной относится в равной степени к естественному языку и к искусственному языку.

Различие в неделимой смысловой единице слово. В языке информатики слово как информационная единица может быть не лексическим объектом и даже структурным объектом. Например, машинное слово – единица обработки информации на компьютере имеющее определенную разрядность: 32 байта, 64 байта, 256 байтов и т.д. Это слово может переносить разную смысловую нагрузку, в некоторых случаях только совокупность машинных слов содержит смысловое значение.

Слова в ЕЯ, в первую очередь, ориентированы на семантическую обработку их человеком. Информационные единицы, в первую очередь, ориентированы на компьютерную обработку и во вторую на семантическую обработку компьютером или человеком.

Для человека ЕЯ выполняет две главные функции: служит средством коммуникации и средством моделирования явлений окружающего мира. Язык информатики (ЯИ) имеет следующие функции: служит средством формализации описаний окружающего мира на основе информационных моделей [7], средством формального построения информационных моделей, средством моделирования явлений окружающего мира, средством коммуникации, средством запоминания информационных моделей и опыта, средством анализа, средством репрезентации информационных моделей. Можно сказать, что язык информатики является более грубым как средство описания. Однако в условиях больших информационных объемов и информационных барьеров, он позволяет решать задачи, которые человек не в состоянии решить с помощью ЕЯ. То есть доминирующей функцией в ЯИ является анализ, в первую очередь, больших информационных массивов.

Моделирования явлений окружающего мира в ЕЯ осуществляется путем запоминания всего множества ситуаций, в которых оказывался человек, и организацией механизмов оперативного извлечения этой информации. ЕЯ позволяет хранить информацию в формализованном виде с помощью лексических единиц слов, что уменьшает искажения интерпретации смысла.

Язык информатики позволяет хранить информацию в формализованном виде с помощью информационных конструкций. Информационная конструкция специфическая формализованная (кодированнная) форма описания и хранения информации, которая обобщает [8]: информационную модель, информационный процесс, семантическую информационную единицу и структурную информационную единицу. Такая форма описания и хранения ориентирована в первую очередь на компьютерную обработку и также уменьшает искажения интерпретации смысла. При этом она позволяет использовать дополнительные (по отношению к человеческому интеллекту) скоростные технологии компьютерной обработки и анализа. Однако слова как лингвистические информационные единицы в ЕЯ являются универсальным средством, а информационные единицы в ЯИ являются специализированными. Слово в ЕЯ неразрывно связано со смыслом. Слово как информационная единица в ЯИ может быть полисемическим или носителем любого смысла. Слова в ЕЯ слабо структурированы, информационные единицы в ЯИ хорошо структурированы. Однако информационные единицы не являются универсальными, а существуют группами под разные информационные технологии. То есть для репрезентации используют одни информационные единицы, для машинной обработки другие, для хранения в базах данных третьи, для описания четвертые и для коммуникации пятые – группы информационных единиц.

Когнитивный аспект ЕЯ состоит в том, что полноценное понимание ЕЯ достигается вместе с созреванием человека, когда его суммарный лингвистический опыт (СЛО) позволяет интерпретировать около 200 миллионов слов [1]. Это требует десятки лет. Язык информатики, хранимый на носителях информации, является межличностным. Он передается от человека к человеку и требует освоения 1–2 года.

Функционально осмысленными считают интерпретируемые фразы, которые связаны с поведением и целями носителя языка, с моделированием внешнего мира и коммуникацией. Первая функция зависит от субъекта, она является связана с его интеллектом, психическим состоянием, ситуацией в которой он находится и целями его действий. Вторая и третья функции представляют предмет изучения теоретической лингвистики.

Информационная семантика одной их целей ставит задачу снижения зависимости интерпретации от состояния субъекта. Объектом исследований в информационной семантике являются семантические информационные единицы, позволяющие передавать сведения, накапливать опыт и моделировать окружающий мир. Познавательная функция языка информатики также является предметом исследований информационной семантики.

Проблема анализа в информационной семантике разделяется на техническую и семантическую. К числу основных свойств информационных моделей, допускающих возможность обработки и анализа их человеком, относят [9]: обозримость, воспринимаемость, целевую определенность, ситуационную определенность, функциональность, полноту, информационное соответствие, актуальность, точность, регламентированность, ассоциативность, согласованность, надежность.

Остановимся на наиболее важных с точки зрения возможности семантического анализа. Обозримость – свойство моделей или информационных коллекций, состоящее в том, что человек (в рамках своего человеческого интеллекта) в состоянии обозреть совокупность параметров и связей, входящих в модель и понять данную модель как целое. Это свойство у виртуальных моделей значительно выше, чем у реальных объектов. Оно обусловлено возможностью масштабирования визуального пространства. Например, человек, находясь в городе, видит только окружающие его дома. Но, используя электронную карту, навигатор, космический снимок – он увеличивает обозримость и видит то, что в реальности увидеть не может. Соответственно принимаемое им решение более обосновано.

Воспринимаемость – свойство моделей или информационных коллекций, состоящее в том, что человек (в рамках своего человеческого интеллекта) в состоянии воспринять и понять данную модель как отражение объективной реальности или ее практическое назначение. Воспринимаемость связана с наличием базовых знаний. Чем больше базовых знаний, тем выше воспринимаемость.

Если модель необозрима или не воспринимаема, она, как правило, отвергается и не применяется человеком. Если модель воспринимаема одним человеком и не воспринимаема другим человеком, между ними появляется состояние информационной асимметрии.

Ассоциативность – свойство информационных моделей вызывать ассоциации в когнитивной области и с одной стороны создавать свободу выбора, с другой стороны развивать творческие начала в субъекта, работающего с такой моделью

Эти свойства связаны с когнитивной областью человека. Следует подчеркнуть, что обозримость и воспринимаемость виртуальных моделей выше, чем реальных моделей окружающего мира. Это создает определенный комфорт при работе с ними. Регламентированность виртуальных моделей делает более предсказуемой виртуальную информационную ситуацию по сравнению с реальной ситуацией. Это также создает ощущение комфорта.

Техническая проблема информационной семантики связана с техническими задачами информационнго поиска в больших массивах данных. Специфической задачей информационной семантики является работа с большими данными [10] и преодоление информационных барьеров [11]. Новое направление в области обработки данных большие данные (Big Data), связывают с «проблемой трех V»: большим информационным объемом (Volume), слабой структурированностью (Variety), требованием высокой скорости обработки (Velocity).

Текстовый контент, содержащийся в информационных потоках сети Интернет, соответствует двум первым характеристикам. Обработка текстового контента ведется статистическими методами в информационно – поисковых системах и при создании семантических сетей. Типичные методы обработки такой информации: кластерный анализ, семантический анализ, контент-анализ. Для многих методов анализа больших объемов информации, основными инструментами становятся высокопроизводительные вычислительные кластеры, которые, работая в многопоточном режиме, могут дать многократное ускорение за счет количества установленных в кластере процессоров и разделения задачи на части [12].

В последние годы широко применяют автоматические системы обработки текстов, основанные на методах и алгоритмах компьютерной лингвистики, которые выполняют лингвистический анализ текстов на естественном языке [13]. Классический лингвистический подход к анализу текста предполагает существование независимых уровней анализа: морфологического, синтаксического и семантического. Данный подход задает последовательность анализа: морфологический, синтаксический, семантический. Методы анализа текстов основываются на правилах, разработанных экспертами-лингвистами. Для создания автоматических систем на основе этих правил требуется разработка модели естественного языка, что в каждом отдельном случае требует больших трудозатрат высококвалифицированных лингвистов и системных операторов.

Альтернативным методом построения модели ЕЯ является метод на основе размеченных лингвистических «корпусов текстов» [13]. При использовании этого метода производится обогащение массивов текстов на естественном языке соответствующей лингвистической информацией, например, морфологической и синтаксической, разметкой именованных сущностей. Разработка таких лингвистических ресурсов менее трудоемка, чем разработка модели языка. При использовании «корпусного метода» автоматические лингвистические анализаторы конструируются с использованием методов машинного обучения. Корпус текстов – совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту [14].

Читайте также:  Понятие точки зрения виды точки зрения

В результате применения машинного обучения происходит обобщение частных примеров, представленных в лингвистическом корпусе текста, при этом конструируются общие, качественные и во многих случаях эффективные процедуры обработки и анализа текстов. В целом это направление информационной семантики больше связано с семантической теорией информации [15].

Заключение

Современное развитие информационной семантики происходит по разным направлениям. Одним из доминирующих является попытка статистического анализа информации, в частности с использованием энтропийных методов оценки информации по К.Э. Шеннону. Другое направление связано с постановкой задач в рамках семантической теории информации. оно использует понятия когнитивного моделирования [16] , семантического окружения [17] и понятия информационных единиц [7].

Читайте также:

  1. Влияние шумов на пропускную способность информационного канала
  2. Вопрос №16. Понятие информационного обеспечения АБИС
  3. Задачи информационного менеджмента
  4. Индуктивная составляющая пеpекpестной помехи
  5. Концепции постиндустриального и информационного общества
  6. Лекция 2. Понятие информации. Эволюционное развитие информационного взаимодействия
  7. Микроэкономика как составляющая часть теоретической экономики.
  8. Образ города – семантическая конструкция
  9. Организация информационного обеспечения сертификации
  10. ОРГАНИЗАЦИЯ ИНФОРМАЦИОННОГО ОБЕСПЕЧЕНИЯ СИСТЕМЫ УПРАВЛЕНИЯ
  11. Основные особенности информационного ресурса
  12. Особенности труда как ресурса.

Хранение информации

Хранение информации– это отображение информации в свойствах конфигурации или расположения физических объектов, которые в совокупности называются носителями информации.

Общие вопросы хранения информации в ЭВМ.

В ЭВМ для записи, хранения и выдачи различной информации представленной цифровым кодом используют запоминающие устройства. Они состоят из ячеек памяти, каждой из которых присваивается свой номер (адрес). В такую ячейку можно записать байт или несколько байтов в виде соответствующего кода или команды. Поиск нужной информации в запоминающих устройствах осуществляется по адресу ячеек памяти.

Классификация запоминающих устройств.

1.По назначению — внешние и внутренние.

Внешние .У. – магнитные диски, оптические диски и др.

Внутренние З.У. – делятся на три типа:

1. оперативное запоминающее устройство ОЗУ.

2. постоянное запоминающее устройство ПЗУ.

3. буферное устройство БЗУ.

Оперативная память (ОЗУ) бывает трех видов: базовая, дополнительная и расширенная.

2. По способу хранения – статистические и динамические.

В статистических ЗУ цифровой код остается неподвижным относительно носителя информации в течение всего времени хранения. Динамические ЗУ – наоборот.

2. По способу доступа к ячейкам памяти – с произвольным, последовательном и циклическим доступом.

В запоминающих устройствах с последовательном доступом (ОЗУ) информация записывается и считывается по любому адресу.

В ЗУ с последовательным доступом (магнитная лента) требуемый участок записи находится путем последовательного считывания адресов.

В ЗУ с циклическим доступом (магнитные диски) информация из нужной ячейки считывается только в определенные моменты времени, распределенные циклическим интервалом работы ЗУ.

3. По характеру поиска ячеек – адресные и ассоциативные ЗУ.

В адресных ЗУ ячейка памяти ищется по соответствующему номеру этой ячейки, если же поиск ведется по нескольким признакам, заданным в содержании хранения слова в какой-либо ячейке памяти, то такой вид ЗУ – ассоциативный.

Тема 8: Информационный ресурс. Основные составляющие понятия.

Информационный ресурс обладает двумя составляющими: семантической и формально- логической.

Актуальность изучения данного вопроса заключается в том, что в настоящее время дальнейшее развитие получают экспертные системы, т.е. системы, которые ориентированы на подготовку и принятие решений на основе информации накопленной в банке знаний для конкретной предметной области. Во вторых, в настоящее время стоит проблема создания семантических информационных систем (ISS), которые позволяют перерабатывать исходную информацию, записанную на естественном языке.

Понятие семантической информации.

Семантическая информация — это сведения о выделенной заданием стороне объекта, выраженные знаками.

Знаки бывают языковые и неязыковые. Неязыковые знаки – знаки-символы (эмблемы различных государств, организаций), знаки-копии (репродукция, воспроизведение), знаки-признаки (характеризуют особенности обозначаемого объекта).

Языковые знаки – не существуют независимо друг от друга и образуют систему, которая организована по каким-либо правилам. Знаки, входящие в состав языков общения, называются знаками общения и все они делятся на знаки естественных языков и знаки искусственных языков.

В естественном языке знаками служит буква, цифра и т.д; определения терминов, вводятся специальные знаки, которые используются для сокращения выражений научных понятий.

На основе знаков естественного языка строятся искусственные знаки. Например, на естественном языке:

, а на искусственном языке .

Таким образом, знак – это есть материальный предмет (процесс, либо явление), выступающее в роли представителя некоторого другого предмета и используемый для приобретения, хранения, передачи и обработки сообщений.

Семантическая информация может быть представлена в нескольких формах:

1. Однородная форма представления.

2. Комплексная форма представления.

Множество однородной формы определяют следующим выражением: N1=, где t – текстовая форма представления;

q – визуальная форма представления;

s – аудиальная форма представления;

c – графическая форма представления.

При помощи t – формы мы воспринимаем содержимое печатных и рукописных книг; при помощи q – формы – содержание художественных образов (информация при помощи жестов); при помощи s – формы – содержание звукозаписи; при помощи c – формы – содержание изобразительных материалов (чертежи, рисунки и т.п.).

Комплексная форма (U — форма), объединяет несколько однородных форм представления одновременно. Множество комплексных форм можно записать, используя операцию умножения двух множеств. В результате множество будет содержать двойные элементы: N1*N2=. Всего 16 двойных элементов. Такие комплексные формы, которые объединяют две однородные формы, получили название бинарные формы. Применение комплексных форм имеет более практическое значение для представления семантической информации, нежели однородная форма.

Семантическую информацию по видам классифицируют на первичную и вторичную.

Первичная семантическая информация – это та семантическая информация, которая отражает посредством знаков независимо от формы результаты обобщений. Исследований, разработок.

Вторичная — это такая семантическая информация, которая отражает результаты логического преобразования первичной семантической информации.

Носителями первичной и вторичной информации являются первичные и вторичные документы. Для t-формы первичной информацией являются журналы книги, вторичной информацией – цитаты, рефераты. Для q-формы первичная информация- видеозаписи, вторичная информация- фрагменты видеозаписи и т.п.. Для s-формы первичная информация – кассеты с записью речей, музыки, вторичная информация – фрагменты речей и т.п. Для c-формы первичная информация -карты, схемы. Чертежи, вторичная информация – упрощенные структурные схемы, контурные карты и т.д.

Применительно к информационной семантической системе носителями и первичной и вторичной информации являются человек и ЭВМ.

На основе исследований в области семантической информационной системы были сформулированы несколько теоретических принципов:

1. Принцип семантической топологии. – семантическая информация об объекте остается неизменной независимо от форм ее представления. С практической точки зрения – можно преобразовывать различные формы представления семантической информации при неизменном смысле, который несет данная информация.

2. Второй принцип связан с созданием первичной семантической информации об объекте – принцип неадекватности – полная адекватность первичной семантической информации объекту познания невозможна.

Данный принцип записывается следующим образом: , где

O – объект; — первичная семантическая информация в любой форме представления; — принцип неадекватности.

Для выполнения данной операции используется 4 положения:

1) Наличие конкретного задания. При выполнении данного положения из множества объектов выбирается тот, который соответствует заданию. Затем накладываются определенные ограничения на множество признаков, которые характеризуют данный объект, отделяют существенные признаки от несущественных. Таким образом, если задание нечетко сформулировано, т.е. не определено конечным множеством существующих признаков, то вопрос об адекватности теряет смысл.

2) Создание модели объекта с упрощенной структурой. Достижение этого положения достигается с помощью следующих пунктов:

А) Исключение влияния посредствующих объектов на оригинал и отображающий объект.

Б) Устранение влияния отображающего объекта на оригинал.

3) Положение: устранение противоречий между многомерным планом содержания и одномерным планом выражения. Применительно к t-форме план содержания, т.е. семантика, смысл или логика предложения. План выражение – это синтаксис, формальная сторона предложения. Одномерность отображения обусловлена линейностью языка. Устранить противоречия между содержанием и его выражением можно достигнуть не всегда. Можно достигнуть во первых, выражение однозначной мысли простым предложением, во вторых, адекватность достигается путем введения описания большого числа уточнений, пояснений (введение большой избыточности).

4) Устранение неопределенностей естественного языка. Основной источник неопределенностей – это неоднозначное соответствие слова его значению. Полностью устранить неопределенность невозможно, но можно свести ее к минимуму, путем введения избыточности, наложения ограничений на значения слов.

Обобщая результаты исследований по получению первичной семантической информации об объекте и адекватной объекту можно сделать вывод о существовании трех видов семантической информации:

1) Естественный тип;

Естественный тип получил наибольшее распространение благодаря своей избыточности.

Модальный тип обладает наибольшей адекватностью.

Математический тип занимает промежуточное положение между естественным и модальным типом.

Дата добавления: 2014-01-06 ; Просмотров: 1011 ; Нарушение авторских прав? ;

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

Синтаксическая, семантическая и прагматическая меры информации

Единицы количества информации, определяемые в рамках вероятностного и объемного подходов, представляют собой разновидности синтаксической меры информации, используемой при наиболее общем подходе, когда предметом рассмотрения является не только информация в узком смысле (например, обрабатываемая компьютером), но все ее виды, включая социальную.

Синтаксическая мера оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. Объем данных в информационном сообщении измеряется количеством символов (разрядов). В различных системах счисления разряды имеют различный вес, соответственно меняются единицы измерения данных. Примерами могут служить бит, нат, трит, дит. В рамках вероятностного подхода синтаксическая мера количества информации определяется степенью изменения неопределенности состояния системы, в рамках объемного подхода характеризует объем информации.

Семантическая мера используется для характеристики информации с точки зрения ее смысла. Семантический анализ дает возможность раскрыть содержание информации и показать отношения между смысловыми значениями составляющих ее элементов. В сочетании с понятием «тезаурус» семантическая мера называется тезаурусной мерой информации. Тезаурусная мера была предложена Ю.И.Шнейдером и получила широкое распространение. Тезаурус – это совокупность сведений, которыми располагает пользователь или система. Другое определение, не противоречащее первому: тезаурус – полнота систематизированного набора данных о предмете информации. В ходе информационного процесса в зависимости от соотношений между смысловым содержанием информации и тезаурусом пользователя изменяется количество семантической информации, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Максимальное количество семантической информации пользователь получает, когда информация ему понятна и несет ранее неизвестные ему (отсутствующие в тезаурусе) сведения. Приобретенное в ходе информационного процесса количество семантической информации является величиной относительной, так как одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для некомпетентного. Мерой семантической информации может служить коэффициент содержательности, определяемый как отношение количества семантической информации к общему ее объему.

Читайте также:  С воспитательной точки зрения урок способствовал

Прагматическая мера характеризует полезность (ценность) информации для достижения пользователем поставленной цели. Эта мера также является относительной величиной, зависящей от конкретных потребностей пользователя и условий протекания информационного процесса. В технической системе прагматические свойства информации определяют возможность улучшения качества функционирования системы.

Формы представления информации в ЭВМ. Системы счисления

В физической основе работы вычислительной техники лежит генерация, обработка и передача электрических сигналов. Электрические сигналы разделяют на аналоговые (непрерывные) и цифровые (дискретные). В вычислительной технике применяют цифровые сигналы. Каждому уровню напряжения (тока) ставят в соответствие определённую цифру. Соотнесение параметров электрического сигнала с цифрами отражает связь между техникой и математикой. Современные ЭВМ базируются на двоичной системе счисления, в которой имеются только две цифры – 0 и 1. Выбор в пользу этой системы обусловлен тем, что технически реализовать её проще, чем привычную для человека десятичную систему счисления.

Основной элемент электроники ЭВМ – транзистор, работающий в ключевом режиме. В этом режиме транзистор в зависимости от приложенного к нему напряжения реализует по принципу ключа два логических состояния: открыт ‑ закрыт или включён ‑ выключен. Два этих состояния сопоставляют 0 и 1 двоичной системы счисления — тем математическим объектам, с помощью которых кодируется любая информация, обрабатываемая компьютером. На уровне характеристик электрического сигнала «нулю» может, например, соответствовать напряжение минус 5 вольт, а «единице» — плюс 5 вольт. Или – 15 В и + 15 В. Абсолютные значения напряжений, которым сопоставлены логические состояния 0 и 1, для программной обработки информации несущественны и определяются оптимальными условиями функционирования электронных плат. В устройствах хранения данных информационные «нули» и «единицы» могут быть реализованы иначе: например, на магнитном диске состояниям 0 и 1 соответствуют разные направления вектора намагниченности; в накопителях Flash – отсутствие или наличие электрического заряда в данной микроскопической области вещества; в микросхемах ОЗУ – незаряженный или заряженный конденсатор.

Итак, внутреннее представление любой информации в компьютере является двоичным. В программировании также используются восьмеричная и шестнадцатеричная системы счисления. Кроме того, поскольку пользователем компьютера является человек, важна связь упомянутых систем счисления с десятичной.

Система счисления – принятый способ записи чисел – характеризуется количеством цифр, с помощью которых можно выразить любое число. Все системы счисления можно разделить на два класса: позиционные и непозиционные. Позиционные системы счисления – те, в которых вес цифр зависит от их местоположения в записи числа. Количество цифр в позиционной системе называется основанием системы счисления. Ниже в одном блоке собраны важные определения, относящиеся к системам счисления.

Цифры – символы, используемые в записи числа и составляющие некоторый алфавит.

Число – некоторая величина, которая складывается из цифр по определённым правилам.

Система счисления – способ записи чисел с помощью цифр.

Позиционная система счисления – система счисления, в которой вес цифры зависит от ее местоположения в записи.

Разряд – позиция цифры в числе.

Основание – количество цифр, используемых для записи чисел.

В компьютерах используются позиционные системы счисления.

получившие наибольшее применение в вычислительной технике

Информационная семантика

‘’’Информационная семантика’’’ — это направление в моделировании смысла фраз на естественном языке (см. Семантика, Лингвистическая семантика), основанное на анализе количества переданной информации (Теория информации ).

Естественный язык (ЕЯ) представляет знаковую систему, отражающую жизненный опыт человека и его взаимодействия с окружением в форме, приспособленной для передачи другим людям и для организации собственного оптимального поведения.

Жизненно полезный опыт животных сохраняется в накопленном объеме интуитивного восприятия, в зрительных и слуховых образах. Человек сохраняет намного больший объем информации, причем не только в виде расплывчатых картин прошлого, но и в дискретных конструкциях естественного языка. Известно (см., например, [1] и [2] ), что несмотря на огромный объем информации, поступающей на органы чувств, усваивается и остается в памяти человека только ее малая часть. По измерениям нейрофизиологов усваивается в среднем около 30 бит в секунду или 100-200 слов в минуту (около 7 бит абстрактной информации и около 60 бит образной информации).

ЕЯ выполняет две главные функции: служит средством коммуникации и одновременно является средством моделирования явлений окружающего мира. Эта вторая функция языка осуществляется путем запоминания всего множества ситуаций, в которых оказывался человек, и организацией механизмов оперативного извлечения этой информации. ЕЯ позволяет хранить информацию в дискретном виде, что обеспечивает защиту от искажений. Образная часть информации нанизывается на цепочки букв и слов ЕЯ и образует хронологически развивающийся гипертекст.

Полноценное понимание ЕЯ достигается вместе с созреванием человека, когда его суммарный лингвистический опыт (СЛО) достигает десять в десятой степени бит (около 200 миллионов слов). До последнего времени не было устройств, способных оперировать с такими большими объемами информации. Современная компьютерная техника подошла к рубежу, за которым открываются принципиально новые возможности работы с ЕЯ. На повестке дня стоит решение проблемы обеспечения полноценного интерфейса человека с компьютером и начала эры партнерства человека с компьютерными системами. Смысл фраз ЕЯ может имеет двоякое толкование (см. [3]) . С одной стороны, можно считать осмысленными те фразы, которые связаны с поведением и целями носителя языка, а с другой стороны, понятие смысла связывается с информацией, с моделированием внешнего мира и взаимодействия с ним и в передаче информации. Первая концепция смысла носит преходящий характер, меняется в зависимости от ситуации и поведения индивидуума, и она является связана с употреблением ЕЯ, а не с его неотъемлемыми характеристиками. Эту часть смысла целесообразно не связывать с семантикой языка, а относить ее к прагматике. Ее можно называть интересом. Вторая интерпретация семантики представляет предмет изучения теоретической лингвистики (см. Лингвистическая семантика ).

Таким образом, объектом семантических исследований является информационная система, позволяющая накапливать опыт и моделировать в языковой форме поведение человека. Поэтому конкретная семантика, изучающая смысловое содержание слов и фраз ЕЯ, должна опираться на статистические методы. В 1960 г. Е.Делавней [3] предложил термин ‘’’Статистическая семантика’’’ и определил ее как статистическое изучение смысла слов по их частотности и порядку следования. Этот термин вошел в энциклопедию. Познавательная (информационная) функция ЕЯ становится главным предметом семантических исследований. Статистический подход предполагает относительный характер смысловых отношений в зависимости от СЛО человечества, индивидуумов или текстов отдельных документов. Соответственно можно говорить о теоретической семантике языка, о семантике языка индивидуальных носителей языка и о семантике языка книг и документов.

Традиционная теоретическая лингвистика изучает формальные системы смысловых связей, выработанные человечеством, в то время как конкретное наполнение смысловых связей остается за рамками этой дисциплины. Только за последнее десятилетие появилась техническая возможность изучать конкретное наполнения СЛО и возникающие в нем связи – конкретную семантику. СЛО человека формируется в процессе взаимодействия с окружающим миром. Человек живет в мире, который постоянно, но относительно медленно, изменяется. Поэтому можно предположить, что статистические характеристики СЛО по мере накопления опыта становятся все более устойчивыми и все более концентрируют жизненно важную информацию.

В математической формулировке накопление СЛО можно рассматривать как (квази) стационарный случайный процесс, с частотами событий, которые стремятся к некоторым переделам. Эти гипотетические пределы определяют генеральную совокупность, характеризующую индивидуума, а СЛО индивидуума в каждый момент времени можно рассматривать как накапливаемый выборочный материал. В первом приближении удобно пренебречь дискурсом и предположить, что предложения и фразы следуют в СЛО статистически независимо. Тогда СЛО представляет выборку из множества независимых реализаций предложений или фраз ЕЯ.

В информационнм подходе к анализу текстов совершенно случайный текст связывается с произвольной ничего не значащей информацией («статистическим шумом»). Значимую информацию несут закономерности в чередовании букв и слов в тексте. При отсутствии априорной информации единственный способ идентификации этих закономерностей состоит в регистрации повторений фрагментов текста в СЛО. Каждое априори достаточно маловероятное повторение фрагмента текста в корпусе несет информацию о закономерностях в текстах ЕЯ и о закономерностях в опыте взаимодействия человека с окружением. Для оценки вероятности повторения фрагментов текста следует ввести Н0-гипотезу об отсутствии закономерностей, то есть о случайном следовании слов в тексте. Повторение некоторых фрагментов в корпусе может быть настолько маловероятным, что его можно считать не случайным, а специально предусмотренным.

ОПРЕДЕЛЕНИЕ. Пусть введен некоторый порог значимости α > 0 Повторяющийся в тексте фрагмент будем называть ‘’структурным элементом’’ (СЭ), если вероятность его повторения в тексте согласно H0-гипотезе меньше порога α.

Задача выделения смысловой информации сводится к поиску фраз, обладающих достаточно малой вероятностью порождения в рамках Н0- гипотезы. Для усиления постановки задачи, можно ввести Н1-гипотезу, о том, что все слова в корпусе выбираются независимо с вероятностями (p1, p2, …, pn), которые можно положить равными частотам этих слов в корпусе. Вероятностно-статистические методы эффективны только при достаточно большом числе повторяющихся событий, когда это число превосходит 50, или, может быть, 10. При числе разных слов 5000 в корпусе текстов объемом 25 миллионов слов отдельные слова повторяются в среднем 5 тысяч раз, но пары слов повторяются в среднем только один раз. Поэтому если фраза из нескольких слов повторяется, то это значит, что ее следует считать структурным элементом и, значит, она несет некоторую информацию о накопленном опыте.

Большинство современных исследователей семантики ЕЯ связывают смысловые отношения с разбиением речи на предложения. Считается, что предложения ЕЯ выделяют отдельные ситуации, сценарии, episodes, отличающиеся активным началом и замкнутым действием (подлежащим и сказуемым). Связи между двумя разными предложениями (дискурс) считаются более слабыми. Каждое предложение устанавливает свою смысловую связь между его компонентами (словами, фразами). О такой семантике можно говорить как о сентенциальной семантике. Более глубокую семантику порождает последующее разбиение предложений на семантически обособленные фразы ([Cинтагма]). Соответственно можно говорить о фразеологической семантике

ЕЯ представляет модель окружающего мира и так же, как у окружающего мира, его структура оказывается погруженной в среду статистического шума. Но мозг животных и человека приспособился извлекать из этого шума необходимую информацию. С этой точки зрения информационное содержание смысла фраз на ЕЯ заключается именно в заведомо неслучайных слов и их комбинациях то есть в структурных элементах. Неращепляемые СЭ представляют атомы смысла, из которых строятся фразы ЕЯ. Отдельные слова также могут быть структурными элементами, если они повторяются в тексте достаточно часто. По правилу «двух сигм» согласно Н0-гипотезе о равной вероятности распределения n разных слов, те слова, которые встречаются k+1 раз в тексте длины N (из N слов), следует считать структурными элементами, если k > N/n + 2у, где у2 =N/n.

Читайте также:  Английский язык с типологической точки зрения

При информационном подходе смысл текста на ЕЯ связывается с закономерностями чередования слов и фраз. Известно, что всякая закономерность может быть использована для сжатия информации. Теория К.Шеннона Теория информации позволяет количественно определить информативность закономерностей, связанных с повторением фрагментов текстов при их кодировании. Действительно, рассмотрим эффект сжатия текстов ЕЯ с помощью блочного кодирования по Шеннону. Подсчитаем сокращение записи текста Т, разбитого на блоки из L слов, которые взяты из словаря, содержащего n разных слов. Пусть слова записаны в двоичном алфавите. Тогда запись одного слова занимает требует log2 (n) + 1 двоичных знаков. В теории Шеннона предполагается, что величина L намного больше единицы. Тогда с точностью до малых величин верны следующие утверждения.

(1) Пусть верна Н0-гипотеза, согласно которой все блоки длины L встречаются в Т одинаково часто с частотой f0 = n – L . В этом случае кодирование блоков символов по Шеннону не дает сжатия, и текст Т перекодируется в двоичную запись той же длины, что и двоичная запись исходного текста .

(2) Пусть теперь один из блоков s встречается в Т с частотой fS > f0 (структурный элемент), а все другие блоки встречаются одинаково часто. В этом случае их частота равна (1 – fS)/(nL – 1). Применяем блочное кодирование по Шеннону. Длина двоичного кода Шеннона для s равна log2 (1/fs). а длины кодов Шеннона для других блоков равны log2 (1/f0). В результате длина |T| текста Т сокращается: для каждого вхождения блока s в текст Т на К=log2 (fS/f0) двоичных символов. Величина К может служить для измерения информативности структурного элемента s.

Множество структурных элементов, входящих в текст, образует семантическое представление текста. Оно очищено от шумовой компоненты, и сохраняет только неслучайные (статистически значимые, понятийные) элементы описания накопленного опыта – ассоциации. О семантике текстов, основанной на анализе неслучайных цепочек символов, можно говорить как об ассоциативной семантике .

Множество понятий, соединенных между собой, называют семантической сетью (см. Семантическая сеть ). Понятия могут быть представлены словами или фразами, а их связи могут обозначаться другими словами или фразами, иметь числовое выражение, или могут быть неспецифицированы. Множество понятий, связанных таким образом с данным понятием, можно назвать семантическим окружением или семантическим полем понятия. Число шагов продвижения по семантической сети, необходимое для установления транзитивной связи с некоторым словом или фразой, можно назвать порядком семантического поля слова или фразы. Обычно семантические сети конструируют из отдельных слов. Такая сеть содержит значительный элемент случайности и описывает семантику вероятностно-статистического характера. Конструирование семантической сети из структурных элементов позволяет освободиться от случайной составляющей. Сеть, составленная из СЭ, представляет неслучайную информационную модель лингвистического опыта человека. При выделении смысловых связей между словами можно ограничиться связями первого порядка, которые связывают данное слово ‘’х’’ со словами или фразами в предложениях, содержащих ‘’х’’. В случае необходимости учета более глубокой семантики, можно характеризовать эти связи по пересечению семантических полей первого или высших порядков. При этом, однако, будет возрастать размер семантических полей и роль «зашумляющей» общеязыковой семантики.

С точки зрения практических приложений для смыслового анализа документов хорошо зарекомендовал себя анализ скрытой семантики (Latent semantic analysis), впервые описанный в 1990 году в работе [4], и получивший развитие в [5] и [6]. Этот анализ основан на линейном алгебраическом подходе, и использует приведение матриц к каноническому виду. Его трудоемкость растет кубично с длиной текстов. Рассматривается прямоугольная матрица данных, с числом столбцов n, равным числу разных слов, и со строками, которые представляют семантически обособленные фрагменты текста (называемые концепциями), представленные предложениями, фразами или синтагмами. Число повторений слова в “концепциях” характеризует их статистическую значимость, и интерпретируется как мера смысла. На столбцах и строках могут быть введены априорные целевые функции (функции интереса) и изучены условия диффузии интереса при движении по матрице. Далее применяется алгебраическая процедура, которая формирует сингулярное разложение прямоугольной матрицы (Singular value decomposition) . Это разложение разбивает оптимальным образом матрицу на сумму декартовых произведений векторов строк на векторы слов с весами, равными собственным значениям матрицы. Тем самым в неявной форме решается задача кластеризации в пространстве слов и «концепций», что позволяет дать формальное решение для целого ряд задач смыслового анализа. В их число входит характеризация смысла отдельных слов и фраз, определение смыслового расстояния между ними, выделение слов и фраз, несущих наибольшую смысловую нагрузку, вычисление меры смыслового сходства документов, выбор наиболее значимых частей документа и формирование рефератов по заданному интересу. Основным недостатком этого метода является его формально-математический подход, отсутствие прозрачной интерпретации численных характеристик и основанных на них заключений. Несмотря на то, что выделение СЭ освобождает текст от случайных (шумовых) вкраплений, та информация, которую несут СЭ, может быть неинтересной, если этот СЭ не менее часто используется в более широких контекстах, представляет субъективно авторское изложение или типовую фразу (штамп),

В рамках информационной концепции смысл каждой фразы, каждого предложения и документа определяется лишь только на фоне предыдущего (или объемлющего) текста и измеряется количеством новой информации, которую этот фрагмент несет. Рассмотрим задачу излечения терминов из научных документов. Пусть для статистического выявления смысла привлекаются контрастные фоновые тексты.

Пусть X – текст изучаемого документа.

Пусть R – достаточно полный корпус текстов из области науки, содержащей X .

Пусть T – достаточно полный корпус фоновых общенаучных или общеязыковых документов.

Тогда слово или фраза х из X считается термином, если x содержится в R, но x не содержится в T .

Слово или фраза х из Х не считается термином, если х содержится в Т.

Слово или фраза х из X считается авторским выражением (авторским клише), если x содержится в T , но x не содержится в R.

Научную терминологию обычно выделяют с опорой на имеющиеся специальные словари. Для автоматического извлечения терминов можно использовать разницу частот слов и фраз в текстах выбранной узкой специальности на фоне текстов более широких областей («вычитание частот», «контрастный метод») . Комбинация этих методов дает возможность эффективно извлекать также многословную терминологию [7]. Однако, этот способ выделения терминов эффективен только при обработке всех или большинства общепринятых в выбранной области науки источников. Поэтому фоновые тексты должны включать достаточно большие корпусы как общенаучных, так и общелитературных текстов. Повторение пар слов в статьях и книгах на ЕЯ априори достаточно маловероятно. Поэтому каждую повторяющуюся пару слов можно считать структурным элементом и использовать его для анализа смысла. Анализ пар с успехом используется в компьютерных системах для выделения терминов и анализа смысла текстов (см. [8] и [9]).

В научных дискуссиях отмечается, что решение задачи автоматического выделения смысла из документов открывает путь к построению компьютерных алгоритмов, воспроизводящих акты мышления по ассоциации. Можно считать, что выделение структурных элементов и терминов предваряет процесс мыслительного анализа текстов и является первой фазой акта индуктивного мышления. На второй фазе индукции анализу подвергаются уже заведомо неслучайные элементы текста, очищенные от главной части статистического шума и вырабатываются устойчивые ассоциации. Затем анализируются их комбинации, для чего включаются механизмы логики и перебора вариантов. Здесь вырабатываются структуры высшего уровня, выражающие производные и абстрактные понятия.

Всякий познавательный процесс сводится к выделению закономерностей, которое формально можно отождествлять со сжатием информации. Известны математические методы сжатия информации: оптимальное кодирование в Теория информации Шеннона и построение минимальных кодов в теории сложности Колмогорова При кодировании по Шеннону требуется заранее подсчитать частоты блоков информации в тексте. Каждый блок получает свое кодовое слово и оптимальное кодирование выполняется по мере прочтения текста. Колмогоровская теория сжатия информации дает алгоритм универсального сжатия информации, применимый равномерно для всех стационарных источников и информация о частотах блоков не требуется, но в этом алгоритме построение кода происходит только в момент завершения чтения всего текста. Оптимально сжатая информация не содержит никаких закономерностей (из рассматриваемого класса), и значит, является абсолютно случайной. При построении согласованных с источником оптимальных кодов Шеннона все найденные закономерности концентрируются в декодирующем устройстве.

Освоение ЕЯ можно рассматривать в процессе развертки текстов во времени. Смысл каждого фрагмента текста определяется на фоне всего предыдущего материала. Информационная составляющая смысла сводится к новой информации, которую привносит этот фрагмент. Информационно-статистический подход позволяет измерить объем этой новой информацию. Тем самым, появляется возможность для последовательного развития конструктивной семантики, основанной на точных количественных методах.

Развитие информационной семантики ЕЯ открывает путь для решения целого ряда прагматических задач, таких, как извлечение релевантной информации, распознавание по материалам обучения, оценка ситуаций по семантическим сетям, моделирование мышления по интуиции, выделение смысла документов, автоматическое реферирование, логический анализ выделенных закономерностей, автоматическое построение моделей по заданным критериям качества и воспроизведение познавательного процесса.

Ссылки [ править ]

1 Сайт НИИ инновационных технологий обучения, [1] , Москва 2008. 2 Delavenay E. An Introduction to Machine Translation, New York, Thames and Hudson, 1960.

3. И.А.Кобозева. Лингвистическая семантика. Издательство УРСС, Москва 2007.

4 . Furnas G.V., Landauer T.K., Gomez L.M., Dumais S.T. Statistical semanics: Analysis of the potential performance of keyword information systems, Bell System Technical Journal, 1983, 62 (6), 1753-1806.

5. S.Deerwester, S.Dumas, G.Furnas, T.Landauer, and R.Harshman, Indexing by Latent Semantic Analysis, J.Amer. Soc. For Information Science, 1990. .

6. Thomas K., Landauer T., Harshman R. Latent semantic analysis, J. Amer. Soc. of Information Science, 1990, 41(6).

7. Браславский П.И., Соколов Е.А. Сравнение пяти методов извлечения терминов произвольной длины, труды конф. ДИАЛОГ, 2008, с. 67–74. 8. Митрофанова О.А., Мухин А.С., Паничева П.В. Автоматическая классификация лексики в русскоязычных текстах, труды конф. ДИАЛОГ 2007

Источники:
  • http://studopedia.su/7_6634_semanticheskaya-sostavlyayushchaya-informatsionnogo-resursa.html
  • http://studfiles.net/preview/4310051/page:2/
  • http://www.wikiznanie.ru/ru-wz/index.php/%D0%98%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%B0%D1%8F_%D1%81%D0%B5%D0%BC%D0%B0%D0%BD%D1%82%D0%B8%D0%BA%D0%B0