Определение на недвусмисленост в езикови изследвания

в езикознание, недвусмислеността е процесът на определяне на смисъла на a дума се използва в определен контекст. Известно също като лексикално разграничение.

В компютърната лингвистика се нарича този дискриминативен процес дума-смислово разграничение (WSD).

Примери и наблюдения

„Случва се така, че нашата общуване, в различни езици подобно, позволява една и съща словоформа да се използва за означаване на различни неща в отделни комуникативни транзакции. Следствието е, че човек трябва да измисли при определена транзакция предвиденото значение на дадена дума сред потенциално свързаните й сетива. Докато неясноти произтичащи от такива многообразни асоциации на формата са в лексикален ниво, те често трябва да бъдат решавани чрез по-голям контекст от беседа вграждане на думата. Следователно различните сетива на думата „услуга“ биха могли да бъдат разграничени само ако човек може да погледне отвъд самата дума, както при контрастирането на „ играч на Уимбълдън "с" сервитьорската услуга в Шератон. " Този процес на идентифициране на значения на думите в дискурс като цяло познат като

instagram viewer

дума смисъл пояснение (WSD). "(Oi Yee Kwong, Нови перспективи за изчислителни и когнитивни стратегии за разграничаване на смисъла на думите. Springer, 2013 г.)

Лексикално разграничение и разбиране на думите в Word (WSD)

"лексикално пояснение в най-широката му дефиниция е не по-малко от определянето на значението на всяка дума в контекста, което изглежда е до голяма степен неосъзнат процес при хората. Като изчислителен проблем често се описва като „AI-complete“, тоест проблем, чието решение предполага решение за завършване естествен език разбиране или разсъждение на здравия разум (Ide и Véronis 1998).

„В областта на компютърната лингвистика проблемът обикновено се нарича разясняване на думите в смисъл (WSD) и се определя като проблемът с изчислителното определяне на кой смисъл на дадена дума се активира чрез употребата на думата в даден конкретен вид контекст. WSD по същество е задача на класификацията: думата сетива са класовете, контекстът предоставя доказателства и всяко възникване на дума се причислява към един или повече от възможните нейни класове въз основа на доказателства. Това е традиционната и обща характеристика на WSD, която я разглежда като изричен процес на разграничение по отношение на фиксиран опис на сетивните думи. Предполага се, че думите имат ограничен и дискретен набор от сетива от a речник, лексикална база от знания или онтология (в последната, сетивата съответстват на понятия, които една дума лексикализира). Могат да се използват и специфични за приложение описи. Например, в настройка за машинен превод (MT) човек може да третира преводите на думи като сетив на думи, а подход, който става все по-възможен поради наличието на големи многоезични успоредна корпуси които могат да служат като данни за обучение. Фиксираният опис на традиционните WSD намалява сложността на проблема, но съществуват алтернативни полета.. .. "(Енеко Агире и Филип Едмондс," Въведение. " Разграничение на думите на думи: Алгоритми и приложения. Springer, 2007 г.)

Омонимия и разминаване

"лексикално пояснение е подходящ особено за случаи на омонимия, например, възникване на бас трябва да бъдат картографирани върху един от басите на лексикалните елементи₁ или бас₂, в зависимост от предвидения смисъл.

„Лексикалното разграничение предполага когнитивен избор и е задача, която инхибира процесите на разбиране. Трябва да се разграничава от процесите, които водят до диференциране на сетивните думи. Първата задача се изпълнява сравнително надеждно и без много контекстуална информация, докато втората не е (вж. Веронис 1998, 2001). Доказано е също, че едноименните думи, които изискват недвусмисленост, забавят лексикалния достъп, т.е. докато полисемичните думи, които активират множеството словни сетива, ускоряват лексикалния достъп (Rodd e.a. 2002).

"Въпреки това, както продуктивната модификация на семантичните стойности, така и прямият избор между лексикално различни елементи имат общо, че се нуждаят от допълнителна нелексична информация. "(Peter Bosch," Производителност, полисемия и предикатна индексичност. " Логика, език и изчисления: 6-ти Международен симпозиум в Тбилиси по логика, език и изчисления, изд. от Балдер Д. десет Кейт и Хенк У. Zeevat. Springer, 2007 г.)

Лексикално категорично разграничение и принцип на вероятност

„Corley and Crocker (2000) представят модел с широко покритие на лексикална категорияпояснение базиран на Принцип на вероятността. По-конкретно, те предлагат за изречение, състоящо се от думи w₀... w_н, процесорът на изреченията приема най-вероятно част от реч последователност T₀... T_н. По-конкретно, техният модел използва две прости вероятности: (аз) условната вероятност на думата w_аз дадена определена част от речта T_аз, и (II) вероятността от T_аз предвид предишната част на речта T_I-1. Когато се среща всяка дума на изречението, системата й присвоява тази част от речта T_аз, което максимизира произведението на тези две вероятности. Този модел се възползва от прозрението, което мнозина синтактичен неяснотите имат лексикална основа (MacDonald et al., 1994), както в (3):

(3) Цените / марките на склад са по-евтини от останалите.

„Тези изречения са временно двусмислени между четене, в което цени или прави е главен глагол или част от a сложно съществително. След като е обучен на голям корпус, моделът прогнозира най-вероятната част от речта за цени, правилно отчитане на факта, че хората разбират цена като съществително, но прави като глагол (вж. Crocker & Corley, 2002, и препратките, цитирани в него). Моделът не само отчита редица предпочитания за разграничение, вкоренени в лексикална категория неяснота, тя обяснява и защо като цяло хората са много точни при разрешаването на подобни неясноти. " (Матю У. Крокер, "Рационални модели на разбиране: адресиране на парадокса на ефективността." Психолингвистика от двадесет и първи век: Четири основни камъка, изд. от Ан Катлер. Лорънс Ерлбаум, 2005 г.)