നമ്മുടെ ആവശ്യങ്ങൾ പറഞ്ഞാൽ കമ്പ്യൂട്ടറിന് മനസ്സിലാകുമോ?
വാക്കുകൾ, വാചകങ്ങൾ, അർത്ഥം, സന്ദർഭം, പൊരുത്തം
Call me 'Kavya'
Call me 'at 5:00 am'
എന്താണ് വാക്ക്?
Morphological Richness
വാക്കുകളുടെ വൈവിധ്യം അളക്കാനാകുമോ?
ഇന്റർനെറ്റ് അധിഷ്ഠിത പാഠശേഖരങ്ങൾ (Text Corpus)
ആകെ വാക്കുകളിൽ
ആവർത്തിക്കുന്ന വാക്കുകളെത്ര?
ആവർത്തനത്തിന്റെ തോതെത്ര?
അനന്യമായ വാക്കുകളെത്ര?
Type Token Growth Rate
Type Token Growth Rate
Type Token Growth Rate
Type Token Ratio
Type Token Ratio
Indic NLP Corpus
ഒരു
ഈ
എന്ന
തന്നെ
Indic NLP Corpus
ഒരു-1403164
ഈ-913181
എന്ന-565221
തന്നെ-443751
സമസ്തപദങ്ങളിലെ ഘടകങ്ങൾ: 'ഓന്തി!!', 'ചായ!!'
വാക്കുകളുടെ അർത്ഥം കമ്പ്യൂട്ടർ പഠിക്കുന്നതെങ്ങനെ?
അർത്ഥം പദവിന്യാസത്തിലൂടെ
Distributional Semantics
Word Embeddings
Source: https://www.baeldung.com/cs/dimensionality-word-embeddings
Image By: Santhosh Thottingal
കേരളം + തലസ്ഥാനം = തിരുവനന്തപുരം
കർണാടക + ( കേരളം - തിരുവനന്തപുരം) = ?
Source: https://jalammar.github.io/illustrated-word2vec/
വാക്കുകളും വാചകങ്ങളും അക്കങ്ങളായി മാറുന്നു.
93% of GPT-3’s data set was in English
0.00165% was in Malayalam