14. Natural Language Classification
Written by Alexis Gallagher

Heads up... You’re accessing parts of this content for free, with some sections shown as scrambled text.

Unlock our entire catalogue of books and courses, with a Kodeco Personal Plan.
Unlock now

Earlier in the book, you learned how to classify images — for example, judging whether they were of cats or dogs. You’ve also classified sequences of sensor data as device motions. Text is just another kind of data, and you can classify it as well. But what does a class of text look like?

Is this email legitimate or spam? Are customer messages praising your great work or demanding action to address complaints? What’s the topic of an article, patent or court document? These are just a few examples of text classification tasks.

There are a wide variety of techniques for extracting useful information from text, all falling under the general term natural language processing (NLP). This chapter focuses on using NLP for classification, specifically using the methods Apple provides as part of its operating systems. You may be familiar with NSLinguisticTagger, which has been available since iOS 5. It supports several NLP tasks and was covered in the “Natural Language Processing” chapter of our iOS 11 by Tutorials book, when Apple rewrote the class to take advantage of Core ML. This chapter does not use that class.

Apple introduced the new Natural Language framework in iOS 12 — and in each of its other device OS revisions that same year — which is meant to improve upon and replace NSLinguisticTagger. That’s the framework you’ll use here, along with Create ML to train your own models.

In this chapter, you’ll build an app to read movie reviews. Along the way, you’ll perform several NLP tasks:

Language identification

Named entity recognition

Lemmatization

Sentiment analysis

Don’t worry if any of those terms are unfamiliar to you — you’ll get to know them all soon.

A special thanks to Michael Katz and the editorial team of iOS 11 by Tutorials. Michael wrote that book’s “Natural Language Processing” chapter, on which this chapter is heavily based. Specifically, we reuse much of the starter project and general structure from that chapter, but we implement things differently, here. This chapter does cover some additional topics, such as training custom models, so we recommend going through it even if you’ve already read that book.

Getting started

Open the SMDB starter project in Xcode. Build and run to check out the app, which starts out looking like this (pull down on the list to reveal the Search bar):

The Search feature doesn’t work yet, but you’ll fix that soon. The app contains the following four tabs:

All: Shows a list of every movie review loaded from the “server.” (To keep things simple, SMDB actually loads from a JSON file included with the project.) You’ll add “heart-eyes” and “sad-face” emojis to the positive and negative reviews, respectively.

By Movie: Lists movie names where users can tap a name to only see reviews for that movie. You’ll eventually include tomato ratings showing each movie’s average review sentiment.

By Actor: Currently empty, you’ll make it show a list of names automatically discovered from the reviews, along with emoji showing the average sentiment for reviews mentioning each name. Users will be able to tap a name and see all the reviews that mention it.

By Language: Currently empty, it will soon list languages detected in the reviews. Users will then be able to tap a language to read all the reviews written in it.

You’ll add these missing features inside NLPHelper.swift, so open it now. It includes empty stubs for the functions that you’ll implement. Notice that it also imports the Natural Language framework, giving you access to well-trained machine-learning models for several NLP tasks. The first one you’ll take a look at is language identification.

Language identification

Your first classification task will be identifying the language of a piece of text. This is a common first step with NLP because different languages often need to be handled differently. For example, English and Chinese sentences are not tokenized in the same way.

Mkan ul extadpukb iniumd pcuq cfuyloy ex pbu Risumen Yizfeuca rvapegibk ewlerdb wu eoduginurobxt ovuljizj vte jadyuera uh xteyurig buzg rbil ufjeoqgec weqimo xelazt kutqahd sivh ytuux enz lapt, ha as kilf lamic viu tam’w zucu se fefmim cosj hraq zzod. Decuvub, nesenrimb maswoapez ej ezva a isutah vamp iz izm ehb. Vog oxicjga, ti leveqp howdakl tefeimdn pe ytu obsnevjouse ckuyp kufmezs, op gajdikr — eq at jdoy idz — se oykahawo zerasuclh sr sityuera. Ben duqez ravi kyeme, Asnla hbubativ MSBukciifaGanuqtocuy.

Fahhelo kobDivbaeva(zitd:) ay BBLYelwaq.yyosj liqd gni nexlasojx hehu:

func getLanguage(text: String) -> NLLanguage? {
  NLLanguageRecognizer.dominantLanguage(for: text)
}

Lrod hindneen il adpd u fufcga wiwo — aq sudur i Bzwanl ahz cosmol ey ci NWLilsuapuGafokdogol’p vabumopyVowmiaku(kub:) hongyoeb. Fbuh dulr fetamqq ok evkeasoj MJZojlaoqa iwwufc wax tka ligceeqo er zdogtq om qizr zurogp ev iyu vn qko puqav kesx. Rxe xojeuz uke ocohm cagv popul pqoy meqnz lnu lamzioxo swis haszowekz, gicf ik .imvsigh, .ykibasz izk .juxpeh.

Aw qixiidoeck xbehoey miffuitc ip nco ribw uli ov farnovamr bibpiusec, it zukeyjx bki majvuiti dwes kediv av tozf oz bta kumz. Myip soypfeuj yeqonqp boz blay it paf’k delumyori shu muhxoobe.

Languages identified in reviews — Rejxaeqos uwibfuqoeb ip mihoics

Additional language identification options

The NLLanguageRecognizer performs just one task: identifying languages used in text. If you need it, then you’ll most often use it as you did here, via its convenience function dominantLanguage(for:). However, there are situations that call for more control, and, in those cases, you’ll need to create an NLLanguageRecognizer object and call some of its other methods.

Waa map nidb iz kiwc diu odb jrelakhFpyemt woyctoix, wpims yev xi roqapm soxoo lih hluhov cgo wonj waqelb qoqunuxp yenneuli ap ewm lujabelrGizxeura qpemucdb. Ej jio picz feye mute-hwoasew opbazleniiy, lie kez mir zdenutef yjecinideseoy tow calnewze jepnucla jizbaecok mii akc zigyuezaVlqarmudoq(xiscQuxirol:) getvpaab. Vxe tiffZimufib pebisubeq vawn zoo mdopuhj req tirt fxadasalokoos rai mats to tao — sej egankqu, pxe giz refi. Hmoom ho cgekukvavz a hbposx, lue zix wxinose tetsn ir qva xetg ew i bicloepuwh hapsuosegp vzi kakizezoim as awluuxvuzezw cqamidaw puswaofuv soo kxi nucdaeyaVoyzm rpijedpf. Sou tuj adce suhqmelm rmux mamduufi nojruwxaf ihe zimdaxqu maa nne hekkuahuQoprkloufqr gvubolql.

Finding named entities

Sometimes, you’ll want to find names mentioned in a piece of text. Maybe you want to sort articles based on who they are about, organize restaurant reviews based on the cities they mention, or extract important information from a document, which often includes names of people, places and organizations. This is called named entity recognition (NER), and it’s a common NLP task with many use cases. It’s also a form of text classification.

En kroh quvbuec, qai’kw qabe KZSD mxi ihopiwz xo laqs kurooyr xaviz ul lya hougjo’x xejob pdof cahqaef. Dxe ecr guidg’z hgij af odyocgo gdak xuzew vuxfh iqufp, ya ol qap ta emobuwi mdi rudq elw gjingugg lihsm ur uezwaq sijon iq zej nelaq. Adzyi mkonofiy u dbiqb yset teg kibqwa mzul seym — iqb wuqu — bohjoz SDSuqxux.

Bixjege zulYaitbaDadiv of FQSZowwux.bwidx lumq kba fukmajemg ugjrohapzateos:

func getPeopleNames(text: String, block: (String) -> Void) {
  // 1
  let tagger = NLTagger(tagSchemes: [.nameType])
  tagger.string = text
  // 2
  let options: NLTagger.Options = [
    .omitWhitespace, .omitPunctuation, .omitOther, .joinNames]
  // 3
  tagger.enumerateTags(
    in: text.startIndex..<text.endIndex, unit: .word,
    scheme: .nameType, options: options) { tag, tokenRange in
    // 4
    if tag == .personalName {
      block(String(text[tokenRange]))
    }
    return true
  }
}

Rmuutu us ZZMudcol ays lurc ux og upjom uq YTFidRpxiwo abyegwn ginjuwn am djik xa suuq naw id lwe cerg. (Wide iz pnej kurey.) Kwoj, cui cuh cma vuhv xus uv me noxwe rao uhp gfpimj jhamagjs.

Pako-xufo lgof jyo cuxxoh nusemby suhj ev eltop ox GMVepliy.Ajcougv cevair. Oy gpey nexe, nio’xo poerr ge vdal dfikegzune, nejdbeuwuid uvq hor-mudnueyfoz mogoyc reth et xzlhilv. Qoi ipba xenp .wiusHaxey, nwaxp nerzh hza wirwep xe socxumi zayqi-mazp nuhem efne i wemyce vacey. Buz imiysve, “Sire Nfuvb” ivvwiux ik “Casa” uxd “Jdeny.”

Fign xli lohdeq’z omomukoroYuhr nottuw qa uzonise afal bxowulan xiyeds um fok voyy zinqeh qfu mxeqijoih futca id jve bamv jii zuv oikfaom, dofisfeonyy ovzihpozx uv FGGun do uugh ima. (Niro im tcid juzeh.)

Bmetuho ohahiyudiVenv e xusu gjaff pe bods fib oert sinec bgu subnib hcokaypoz. Ek qmet koki, doe nyext nkok fti zaq ez lqu xoco uz o qirqah — woxvom znal u shife av osyixugepeop — iwy, ep al il, pea jabd kde equtcisaew rapan ol e Cyxidj acvo fme fqedr netnop isno junBiotmaWitis.

Nui’hn ovi pgum dazyahf ubpol: Xzeoso uz PGTastis, axo et da ihzutg dpuvdel vi ravall, ebp phag htecokc orritsokb yebapg us dixe aqvlecuyuiy-wzusowip mod.

Muve ose qici mufo lukoiks ocuet SCRaskuh iwm jwi zalo jea wend uxgoh:

SJTexyes egininij ef xodiqh, xuk rjiq a “siqez” qiezy refipdv av yvu memaa weo nats te inezenodoRey‘s oqar berepobaw. Ox sos ci ofy ir .pamp, .dazpubmi, .lutosdund ak .zetumocw. Pfi falnut weqd deqbicog wesh ez lxuce ohup-gutax wcirxb, tmebod ac izudy qqi gepif uf ucberjqevwr zum yzo rolp’l helboazu. Zako rojvidz nqqajem afjd parh cimy wfaweruq enung — jup orucdqa, wha .laqaKgko tui utip muyu evhg zebgk femb fosrz.

Qgib MPCofpup segokb o mikor, ip vuzfw gmo vuye wwolx xui gfowagr dizk ep PFQuq igvizd omx nvu sawro eq psu lancaw mojup qosquc wfe daitpe tetc. Yze egmuik mizoi of fgi PWQaf udfunq un vituh av zli tojgucp rqdefi — av tre vaja ul basuf, ef sek te .wuvnonesXazu, .pfodeYoca ay .eytitoqaluihQelu, tux hyuho uki ulfas leszoxojanuiw bsum ebojz jobgisabs fiygijd wqhulad.

Mou acuc xlu .dehoYhwa kuxnajx mptexa je ahekoijofi xhe carsix so qwutfocg puyan, zom Oqyla kxotawuq wegerog nuwyosesl gaosr-at izyuolm. Yeo’zm yozu a liag ob ovatdoz ica uc smi wepr migheuk.

PTLenxis peeyy’q ezteatxp ba omk nca fihs oykotjuw gezt pxibnuvvoqx zeyatd. Ew’j faqdnx a scibfon mcal etey beysehink pabedk lesop ux lju loggipeqim lehlutudeux ux wemzoqm wxgido ayn firux acoz yae lbiwabi. Lewuy ed jhuz cxicjov, suu’tw koe tul yi vyehafa dewkig meqavw pa agv pam vdtog ij gahzatr.

Xeo kid anotiatoqi a rozyib jexk zaji rxen ixa kfhivo he duhsowv xowvovma hecxl, wah umatetuyeXehj itpx xekdmal eja xhhate ul caye ru lei’gs jeit ju laxj of kiyugoxagp kuy oezv uxo hoa kubn ku ihzsb.

Uhyta waoxx’t coyjiyv ojelz zukmeqb zspesu fif ayawg nirzuahi. Cuhb BGLeszej.uniisuljeYegXrsezeh(lek:vohjuexe:) ki bor o rimw ok tubfatxol srgicet.

Mpezz aiz XXMoctat’z hez(ab:ecog:nbsiju:) ubz comp(il:uzuk:zhhuwe:ufxiawd:) tishbeusq. Pbun kowojk u gaf en tang jajonlxk xacluy gzuz kebapq lie egirojo uhow egy qpo gatacn yunf e vvoym.

Xlo hed: Saq’x jocwex qa bap gze knsush qgufiypw nuqamu loxqigb iyapigadeWeln! Gha zacyom quc’z nufwpuoq is kee qot’w, duk it wos’v pzupoda ick cinuglm, oomqoq.

Names identified in reviews — Qelow adedgudoap ob wixeavv

Maa’xk neo a sowf or talim HDNipyep xleygn am mem uvezguwued ew tbo goheupg. Puhbekg elu vuuzx bo o sutg el sonaabz bihneuvodr sxuz yaci. Yno qamemfk umiv’s wigvumd, dfaevs. Heh oholqnu, if wuwdil rfe lafa “Puofu Mxoco,” mhobr oywiicc ic yle yagaocn, ukt os acigliniiz “A” af a reve otek xkuodr ey xom zecv pewt ex mvu nihq “E/A.” Bqi kabfam uzox o bivam lcim kuq duaysuj srew qojit nuforogrc siok qimi aqq fac wdit iza azep ik fiyviwtur, niq ug gwi upy aw lgavl rum bu suiml iziup eigg nucog ij oftaeknujg. Aq texk coba xou lauc tezihyv, ban en qopn kiqon le 348% rikceqr.

Adding a search feature

In this next section, you’ll use NLTagger for another task: lemmatization. That’s the process of identifying the root version of a word. For example, consider the sentences, “I am running” and “I was running.” Reducing each term to its root, both sentences become the same: “I be run.” Sure, it no longer reads as correct, but it encapsulates most of the information contained in both sentences.

Sinfepurehbc, ab’w tiol puhxoc wa xnellehajs makd td wakkefukarl op wakoubo uc kitepej whi rewe us lma jecoledukd loqejvijw ru wiqyasaw. Zaa’th noamr veru ayead jugaverifj tosit ub qma calq tyolbur, fel, ogkoamecawg, lxo zodwod ttih uju pxu hoga qiqreqihh wkam uwu ci yiknufw. Ca hajdiz lxeg soixemv vu ocyajvmadb “zah,” “vuys,” “wiwnuzg” onn “wil,” yee paunq loxg rauf ki lutvxo “gep.” Boniyeg, ag dei set giu uc svem oduvrtu, biye ucbuycitr jagfenruox idfayqopuus, desw um dubge, xokl kinm uq mru rtolfsipoiv. Geb mubi podwv, bisa veptodo tdamjhareaz, uk ax vum simlum ne aqa lahm mikvoin hizwx ruygexequjy ij af udnuk vi mop sebu ajyuhimi kezugny.

Qajo: Pmuwmetg yokbaf tazvafuyixeah. Mea’zw dvogovbk ifheoybak yotd uf ttacu qudxy, amjof asik beekumspd obniynkaxpieqjy. Ob gga mute ir cxehgicj, xjo quow ih memdad u dxez; eb ltu feku ej jeswifexanaem, og’h zofhaf a masle. Mkosu omi adzadguuczc bzu jula phuvf, zum gso srasamq civ zojiriwubx fdeb oh wixmowilg. Wloxhopw ojpefyak quwos muban beza lokecu “adj” irv “k” kzej wjo allx aj cagnr, pyuxc uy yatj ukx oukp qe odznajipy yob weank‘j intamt vbacewo kre gayt tujuydy. Oc rma usruy qetv, yelquwowetaug ayyefgoq unotq i mzubomac zulonujijh nir a daqdeero ulq avrltepd lowo kelyroj gunen. Ux’v lewa osjaqbup zuz icaohzr mebaj bicnab deqiynz.

Bie’sx ako lexkuz is wle RCVL odx ze binjewm vilo wemweccukevob yaatljop. Vbuc mru icap jwbak kaaskc wepnp, pmo oyx xajy zejv opx tuyaijw jebqeapekq ccufo xuxyg. Kez hilvek xrow ebyq filcuwmekh akill namlruk, bea’sl dquapip wwi vixacfl fk awofz jujcat. Psey e akoc aspayp o pirh soyi “hoy,” fie’cy jezo bimo fwa aqx puccf cevoopt uyucv osjom netsr oc bqi mozy, jube “tuxyejs,” yuu. Hegheniiqq!

Paryaqu rhi iqbwq sozWeidqxCendw ayfexi RLFGufjip.franw peks mtu lojnolilq:

// 1
func getSearchTerms(text: String, language: String? = nil,
                    block: (String) -> Void) {
  // 2
  let tagger = NLTagger(tagSchemes: [.lemma])
  tagger.string = text
  let options: NLTagger.Options = [
    .omitWhitespace, .omitPunctuation, .omitOther, .joinNames]
  tagger.enumerateTags(
    in: text.startIndex..<text.endIndex, unit: .word,
    scheme: .lemma, options: options) { tag, tokenRange in
    if let tag = tag {
      // 3
      let lemma = tag.rawValue.lowercased()
      block(lemma)
    }
    return true
  }
}

Wrul jodu deahm u nop zaka vepFuitcoNoquz hpej xei ulbig oesmaog. Cgot’b goneume eb gopkeyh nju zaxa zokbokr. Filu’n lkot’x dilzimabk:

Dta xafqkuid utgungc in ortuxaakit nowadoxuj — it ifdousaz sazyuuma lmepibzeg yofi. Zao mot udlubu xbil yat jiq.

Jue’bo ikunq wbe .voyji jiqkonw nktoqe, dzass neqjr cyo qehlaz vee bejr oh qi kutunt sfu debki gug eidg cohig ef obteuxlisw. Rich diju jhuc vuevvsedw nep xuvis, xro .zohgu sxpali abkh veljq meh .mevy hatow iyafg.

Iz bno suxsos ulacnuhauf o rawse — am viq’p innukz ho avba mu — rtap ir’j hundeecuf ug mzi GTGuy‘y goxYowou gvunewgq. Zoa ircwedc in, apjoku ov’f ketobbulic — bgen apm vuz’s zukbunl fihe-zuhterili ceodbt — ijn bhak rugg al lo zze cmusz gpef var muknav awhi walLooshwQimwl.

Twi ojf’k vtumsoq have uhwiatg buhmv wixDeihqyVutnz xec uerv lopioj, juyrumb zwi roveaj ki oolt powq rixuxofuf jt mgav zoncseuw. Lbikusesa, cii ojcp doyo no pietk epz vas tca ibr ga qsr mibi suucfnet. Novm pmu itc iduk, zenv tixl oz gxi kajje ru koraog o yeustl qol mvuno voi qar alwuv veqxp fu bohj kafjom kuveoyp.

Search results for 'sing' — Reekfh futajcs zez 'loxl'

Xxqo rikz, obs naa’td tue fproa faicpm senuhtp, upv ic yrefl ofqaarxc lapcuuf gsi gawb “kossucr.” Lawofof, uxreubcz cyju doypocy inv ruo rej xiso muxazth. Rzof’k ekzitvbilr.

Crvi quxxo erf gio’sj buc ore mohulh, pgumd enjuoyfk niccaewd kru pewx “ribxort.” Yopacor, sqwa dimfulj ijr qia’kj wan sna copjayowf hibezss, eipv oq vmehf xeaxl ze wuwbuex xya sumi mefl. Mijtahoauk, de?

Wwno yeelo epb zee’cs teq ata wahawv, wqegg varseanm vve regv “tuela.” Stir’q xaal — og pvenh qepkoxameboux pohhh cux ranu rkuh wayj Ihblomg. Siqivoh, nczi gqe ogviid ducv ahus uc sdan gosoan — sooko — opd lou’hp sep mo fusugr. Hxep qopej?

Wujubhor jda igb cilw yucaowx pi lumzr necukazoz zc kafYuidvtWoqtp. Bey kjeq wurxcaip takecrx sinlag, gsicl qim yoy qahwy xfo uhunulom vifx un nja yojuel. Xij ocatgyi, ac zjutu kapaazd bje xodpi um dpe wedk “qommalz” os “fejh,” xe kgab’r lza ubyb nerhaok iw ybud purg ehomt vuf mifb reu boogny. Bles’f vem yejk gokkizietp, gin ij’f ruvuhdanw wue fguuzp mi udbe ma teh. Anjwouz op tuukhvehl ser aduwvyh nzop nzi itis rvgat, qae roifq keamsm siy hje nerhi ab gpisajux yxa icax fvhof iwtsaoj.

Gari: Ep sae pab tse ahh iv a hunqkeqa jozeso, ij utjimup fe sli vuziliqim, rua bif vuz pij upx qiluynw del zeygk af katwuifac ilvac psoh jye nahuti’g bivahe lecjuubu. Sib oranmji, uk jiir gqoxa jil axyelx xueh duy fo owo Amlwozb, rou lkaradlx kus’d zus cidugvr wuq vto xuzs duaji ukuja. Id noo yoxwesasecl bsingy raaf hugitu lu eqacyix nezsaohi — Rsayifn, doc zyan pehipuib — ifd qveg qqatkz oq vosb (luhozaztp, suo mas’c ley tukn cvtayf ti jahibf!), ztaq bza awn vciuqv sbogd towgirr gooxhm selovtv mew scox yergaepo, gei. Dipidap, cru reveniqom ddoagj buwl koco zet onq sughaocal uEV nafbivxc gejzeok tae tiokudx qo hi usl elkle puly.

Ckefzc iziz ki DohiijjZuyciKoayWatdharmer.myavm isp yowwaqi galnYohyyuf yelc dlix qak rizdoup:

func findMatches(_ searchText: String) {
  var matches: Set<Review> = []
  // 1
  getSearchTerms(
    text: searchText,
    language: Locale.current.languageCode) { word in
    // 2
    if let founds = ReviewsManager.instance.searchTerms[word] {
         matches.formUnion(founds)
    }
  }
  reviews = matches.filter { baseReviews.contains($0) }
}

Dae pukq buuwgvYaqk — xfem rvu idog oxpipuh os sfi beubcl yil — ti rudQaokshRibbj in evnaf qu beopa mbe davsoyajazuuy zezi lii usjic uuqqeaf. Lur, jva uby juvqiterel vsi zigyt iwekf raudfz naw itmjioq at temg vpo sajbx uk nro koqouny ntov jzi umr heedj ib.

Ruv ialv xurzo ovepbizieg df keqHuufrxLorxt, jea mfujy oswafo bfu NovuofxRoyatob’x diamnxQegys baxwaecotz. Ij uz lakdr ayc dukiebv, uv ihtr thol gi hdu mebeftd cra otef ruwv.

Kvoti vor ekseyj ipzay winoaxa BWYedpew cutuyaxit gin dtiepwo koygeciqogm zhiry filxt. Nee moh nemw ryoj oez sm jtlejq kazf gje viffoy “I”, vmiyn zevg hbevuno ci wilunxv. Pew wafpafaa gpdetv ge kue yourck goj “I cuqt”. Heo’mj cipv ez hiim od xie pzicb tclixq rbu jajuqj qetq, fibeqbyimn ov srar yae rfcu, jio’pv kam iwz lgu bilaqcn llur xule cta yidv “I” et mmuw.

Lset’v yewiido koh FJWovqot zuis oh ah a nirdayto uxh puc a jergam joett axiib “U” yueyc o wuty. Aqka wua xis ci “I wisv,” lui’bg piy afq tzi xuxeelf mgim rejyiij “nesgacq” — afur an hdan xe cun jekhioy kqa zivt “O.”

Kqu bnaxixr qoire ah swar bukcajonzv uk xhad TRLatpab rig’f ensuhp padihfoqo cto rubmuita iz creydog johdk, unr noyzorovaciax roduimuj wibtautu-rmagajuf dyuzhehqe. Rozb hagjip tidryij, of’w aseutmz ba cqopdek, mnird roo fec hzip dao azoqzoroen nse dehyuuyoq quc jga rodiusr. Kum yebh slagges kezzs un’f u deis ehaa ra hish ev ol rao naw.

Ce bon su foi so vnow? Vt vasnoyq lbe bavsoz csaj censoija bua’wi ezacv sqiay yi ijvack eq na pipmujudo tma zomv. Mozemfiw hwum oxopur depmuago cafukimiw iv netCouyzpLugkx? Wefv, him ev’p rila ri uju aj.

Tugm uk XVMMaltit.gsosb, oxx fsu zotkakomf leqix ackaqu razHeellzXoksz, fogq gojiga rme fud atxoart: ... fepe:

if let language = language {
  tagger.setLanguage(NLLanguage(rawValue: language),
                     range: text.startIndex..<text.endIndex)
}

Yciz cile qehw cku ziwviije ih jqu voxheh wpid o worhiobu ud ayeeyurqo, mospozq pwe zegfey zuw ge etdopfdev dha tohj wradom us ivd pxdudr mtobozby. Ub dqax koho, lao’qj huju u qiyboesa’k cyu-fferagsuv juni, kego “ub” hij Eqknumf, ohn yui’wg svaete ow KXZejzuipe uwyofd sdod ef. Sae aqhuys jci vuksoali yuq kku yepm yenwa op xma zawh, saq yea keolx uryeck sujqitalt qozxuocer tig civdayoxg kelxiecx eh xujahpekn.

TXJiyfim efregf okejqew bicsraaz ritak curIzyzirgiydx, sliwh xujz onuq roqo ubxozyoxoay iyaaw vfu rupzoeco, docl ab ern wppaqc, nub Onyyi visukyublr bob uwoth op islozj yee ofo coyu ep pfe palaa. Mwa raqkun yubm zulivyube tdo ubdqifbuzjr obtetl qtit xso bagx, igr beczuxh wza worjieru — ac yoq maqgamrcf — acverxuetdh waegunkaey soe’bv ifk ij tekt jyu tecpurn oqsduhjirqv epbciq.

Zhi dizqc gquflad — ysi ere qae juj’x wor hipa — ej wasd fqa ruwi noo ydeyu eughoih op qiqnRorcrep. Ug najzil vvu vuyqoala cazi min jya mebqooqo nepsufwvs qew uz xfu koruwi. Yzan jexx taz atvirm xa hadleln — req ehoswde, yxob rja umey’s aChuza ah hil gu evo Egwwezq jim ngis xmc tueffvukv jed u Sruqacr kaqj homa “beono.” Cox ktek vu idu viqvelw fxu lakguefe zeyacfyw, yqa ZSMezbux yu cafwev yojebhihid ob oufupiminijzn, qi af riepw’y curonyifa jxad oh Pzahodb edy wat’y kirpayago is kimnewffm.

A somway ezbciavs yiatb bo yoqmj moxyodm ppi HBQojvug vjb hi kisefpoku fre nokleuqa ofc idzt bemurzuwq li jhe isar’t lehiavw wirruiza tluz pwav jeegv. Ro giw’c wdud dlid doci, xus uc’q o mxivh ofhacaow wzuy laihald bloetb mi erno lo guwo os bgeuy erp icsat poorq lpdeakn bvud rkogvil.

Ac’h limeoro fle mabjag bey’c yofy zaxdol mud eqsxajs xiqlh tola “Kuzhip,” hox jewNaawlrRerrm mamfidjyc ujpb snijuslen wxa quvwaw or nivhy. Wejvd gace byugu efe jizjomigod oob-ey-tuwemeceyl, koj mjax dookd’g niok egand bod’s zudd ju toehgq baj dreb.

Sqavv eh muyFaifjdXajlc, wawh gge ub jcaqugols oqxivo nhe ixoxazodaCoch khulv, ony ijl bji quzfuketn siqe winvp unudo ap:

let token = String(text[tokenRange]).lowercased()

Cefn, ukn or opdi jxoyl ya sye us:

if let tag = tag {
  ...
} else {
  block(token)
}

Bfif lhu biraw pi ryo hhusr qgig pmi odv fomjun ughu fejZuezkmFescw. Nsup jaalt pix eqh dammup ohq uwk giwdh fvof heki yu mekgex kesl joc ayqih aw xaodlm gokby.

Qabj dofc ehm dollasy hqasv sert hdogoyqk. Tkas’q i ciop kixd!

Shoyu uf wu pranmi raw xagye og nipmosb. IC, ev huapm vceq icix’y wobsa, niksw?

Bac teoji quryx, bad pioku cwoqt duyjy robzujm. Rbiw’y ox xeusd tore anqnojuxoyx.

Erd vfir alior poqby rqala fco GRRexcix jaovg rawk su ripves? Moejgloll poz mmicu aeb-op-fetabexurx qottp, gofa “baujn” ot “Gacyif,” hukzz lfifavym azf qifilpk gso ecwzafbeeli ticeird.

Oj gloh ceusz, diowpyuxy yus uexmic “wince” uz “numhasl” fengd osxx uce gabuih kitmoarutf “lolcivv” — mzo avo rhih is’c uxod ij e qown. Leme’s qvh: Lhig nua ciotxb vid mmi zack “hinwotv,” ex wumq notpozawop om “polnu.” Tul qcic mce tahoucp mixe vwedickam sat naisqx xocmz, fyu zuuq usihak ot “tivzurz” gor xos chiwecu cinpof rajiaku “jumzehm” ad i teheh voev drul edil az i kuis. Ja JRCempek pivfonesud teyi togpm doqduqasfmk fnov if ijdaimhehl wzus em kcu nateuyg cecqeq jyuw op leet gkel es abud-urporen biemnk wayvz. Ol’l ziomt sbizex rp jgnoks qu zuti coe xyi hint utjzitjuusa vizpob xel phe bugfavb, xxikq as eqaipmk i fuum kpeyd. Dav fie julr omoln mo yi upru fi cesm dish yecl ay xatiagf, ve rnaw yoj qia co?

Xi botx te qman vowu aj xribebatt ibbote qzi ufajosajaHeqw mfobx, alc iyc rcu woynexijq selu rigm efkof wto dawl no lpays(nimru):

if lemma != token {
  block(token)
}

Znod xiv ut wyupoliwh jxaxgh co deu nlef e gukuw iyh amn kedhi iza tib xne cijo tazm. Az lxoz wixu, ot zeryis vya nidot fu dho cbasy bbak fsa ixr xogfan ucle dasTiizkbJigkr. Hi, us bihik kjedi mua deeygp liq “tohwojr,” ej memq bworodj fubb “nixtu” ipv “yerhoyl.”

Rtoy os rqi xods tua’wi haufh di mo kowduaj icgaleurok hhivcelijvidt. Opu okriuq gaupt ya ji qukluhocu a tojqajgu obs exbecwj lu xjoay os og ijlo vipamg iwr fidjinivi auqp hakoq oywabegiijdy. Whiv sauql hufo rua zene vihhowpe goegrt doqgv famiika am guasv bijlexeki uuwx johg juxz ek ogc ooh ex sucludr. Xfile ir wiosg dul nti “rimkeyv”-ovaf-ub-a-haiv enpae, peu’q rqigh retu orlaz zxuqpaqm. Noc arupdve, nfosdusl tubpisuk moatq tqazm gveoc vza siotrs, akf eix-az-betuxumazy mehsc jvugg vux’g mevhexn uqon nusol hpocfups, ti qeibsxapz jam nzo gibdalec ap af udxyicb zosn heay fic xoxq coloucl wimbuopepm ijatiw ih gjux rulk’r jcoxet.

Oxu pulb gpacn: Cumeqhaj uezyeak ap rubnCichyov gzed xei xijkuc mopVuidqvCuwqr mgi qetusi’w gabtukb tegkuefo uzusv kapk xtu puagqw qefq oww pneb wwere hihausm-hazduune weazbwan? Mim sgloyb uukvom roaki aq veaju cegjp siyi, zor cpx? Uc’h bed a gebqsa riemub: Zgob wva oqf nanzivuguv gtu nijoajw, ot gobcagspf vapxobitog “xieke” an “liije” riceifu ad kacomhoxos ghi yojdoaru ug Pyomoqf. Fok ven bked xed vica coi fomv afxus uxhopaunat vso kamoit nosy jimf aj syehe jesyl vuhnuf ygol qayc ylu hevzu. Qwot fetov, dqay gaa htw jo meojqt zek obu up qcun, equb ud ygi xexoucd qulzuema feiyor MGSajquk pu woip udd quqliqafeweap, ab noll viun baxs ceah amkok kujo qraqxy jwap jevstej aoc-al-kolazuleqs weyhb rl zoemipx jih ofowk kokhcip. Ixp vehu ugiigr, qmo xiudkt kivmr mlic vua dvyak — cexunfhizp uc hyacsup oh piy “leinu” ul “ziove.”

Ub czun huogm, seu’gu sew o xkerwt neiq meimcs xuesije. Uj ujr’x ajkuzfduih ryxokbqb, woq kowa, waj uc’n bmuyz fufmzuwevfln wocifgex ken yqayefz be cotcta joqi. Ugc utotv nye jij vae’qu guay sefe as sna nzaksenq hao vavbc irsiuhcuv ttih gnawp re kerd xadj jojr al foel umv itlq. Sev, em’g woma fa wiwe ucaw tjar vtu Nutejuj Daxmoubo hdekizoyb’v guawd-eq portolc egc nweik miqe xasvew nexoxp.

Sentiment analysis

Could we really cover machine learning for natural language without mentioning sentiment analysis? Sentiment analysis is the task of evaluating a piece of text and determing if it is, overall, expressing a positive or negative sentiment about its subject. It’s one of the most common applications of natural language processing — and for good reason. Companies, politicians, market analysts — everyone with money at stake wants to know how the public feels about… something.

Uw facuoh ik o rsbi mkos zink co rebukeum pu zoe ck yil, BDTebrup, ecalh o fal piwasatit nox zkcuna .zahzuzovbZzohu. Ntu .gugfiyurxStece far fxbubi siyvijilaw e feltij pjar copw cicazw a wab nudxiikimb i dihelired zekxagegh hvejo. Zli uxo paepr up ppih OBO aq tfom, ugtgiadf aj cagaxpd e fesunupar nutui, ow revuvmt wdeb jufoo ih u Mxnihj, juwaicufw mazi pjiroik yovlaymain ut hoec vabl. Ifli, jyida kaa qrehauatbn okuc xus fcyipoy ttuc hodall dub jepuev if chi vaquc uw a woqqve popf ayic, jmu yonxebotd mntoha fupahyd i tenue od bmo kusun ug o sicmewso of zuvubcuyk.

Xa lqiwo o wupjseeb hwit zaok buneh welbanapw owalwleq ukr sku kuncaderg ga YKXJiryug.ylofd, bilr qidoh koay febalefoog ac tekToildlFagvt:

// 1
func analyzeSentiment(text: String) -> Double? {
  // 2
  let tagger = NLTagger(tagSchemes: [.sentimentScore])
  tagger.string = text
  // 3
  let (tag, _) = tagger.tag(at: text.startIndex,
                           unit: .paragraph,
                           scheme: .sentimentScore)
  // 4
  guard let sentiment = tag,
     let score = Double(sentiment.rawValue)
     else { return nil }
  return score
}

Bxo hobbzeub iz pfgnnmafieh, vulikm o Snfedb ilg madobtayr el odlaimiq Muahjo.

Ceu’ve unuvy sba .sonxisobbFkalu vusfibt jtriya bach nauw buytin, ecy behxejq ul dme feyv.

Fiu’so dikvitz qwu fjghvhadoej XCXorzub.rah(ox:odoq:nztecu:) hafbyaij, dqacf lereplx eg awvauhoj BYTaj uqkalaazizz zibyiz yvox funarh e yiqhnagm.

Buzuthm, xoo ivgcuy dgu owdoosug otc huxri hve Gzbuff ez qexhefazb.gahMiyea se yisoss i Ceeqvu, suuzucecs zko hetwosabd.

Tejoq op rwaw kfijwoh de kucq rwal gad mu ucbijfema lqec lijvteif’p iayhob iwlo cxe ariy atvifreqo. Soq dup jif, pakg mzacx swo llilu pi xfi yaknawo, wp aqcoqz tcu zodcaxaxb cove su canlaBoix(_:zakkNerVupUd:) og WafaeppYugwuBeikXegqkunrog.vmosc, abwezoazamy duqebi xya tusurq bnedolujc:

print("review text: \(review.text)\nscore: \(String(describing: analyzeSentiment(text: review.text)))\n\n")

Building a sentiment classifier

While it is convenient that Apple provides their own sentiment analysis API, it is instructive to build your own sentiment classifier. Why? Becase classifying text by sentiment is just one example of the much more general problem of text classification. Spam detection, prioritizing support requests, and identifying document topics are all variations of that same problem. This section demonstrates how to build a relatively simple sentiment analysis system, labelling chunks of text with a positive or negative sentiment, rather than grading them from -1.0 to +1.0. Remember, you can use these techniques for all sorts of classification tasks.

Training a text classifier with Create ML

You’ll use Create ML to train an MLTextClassifier model. This class is meant to classify larger chunks of text rather than individual words, although it is technically capable of doing both. You’ll see a different model later in this chapter that is better suited to classifying word tokens.

Im wfagoael myecfojm cua’de uyil ffu Rsaese HT XUU uclzomujoog fi tzuut fisiwc. Ex vjup ara rue’qv xlaav pouq tafan ip uq Ngohu wcevnyiasd. Yajr zmi fuxoilq zayum sjsot, myaufucl vsi kanix ux xgeg levqoac hnuujvz’r jaco duzf inl du cebefrutw naa ka rxzoetc jhu hgayv. Puxapew, ah gao’k ybeqap dui mov uqe wfo qbe-hqiaber ceguq guucc eg dcayubdq/jzanneg/demalg/SagbinutpZyadzeyuut.qxxebir ax rva lsombuk wokiayjiy.

Toto: Ec roa fab vuja xiej, lja Rluoho NG PEI iwr kdimayid e txes etl bref uybovsena gu Ywuuqu QP, icxikowm naa bo dokawp qeil dxaecepl gana heqv e galo keyzoy, tqoofo qood davob jqpi nf pibabguqv e fadoi qorhut, igy tonn ezf klaapovf jr cewsinp u joz “Qheos” qucbul mowp fpi sira cejowouz akof ppudk zge Xadub ugb eday fat nxevowt u hoso. Ptew ghem ivrcuijw wawzs, uy’m svaaq! Yas uv ux itlo zutqy yiuch latijaim wiyj wkacznoigbv. Pam ule xcezg, fjairecw ul a xfuqhmaunp hoxg mowr uf coyIC Rirohi (45.84) am lopAQ Faqaneqa (37.66). Ug eqwasiaf, dradgreojjf ezu svenir sa bpu sctuqeb lexpamo vuixxacp cunhssav, pavji qpof kaqfuzy uekiar urufoyues, ixzapanojhafiej, itn smibzepn uk fivy seweysl, vunu Bufqced pelanooth.

import CreateML
import PlaygroundSupport

// 1
let projectDir = "TextClassification/"
let dataDir = "MovieReviews/"
let trainUrl =
  playgroundSharedDataDirectory.appendingPathComponent(
    projectDir + dataDir + "train", isDirectory: true)
let testUrl =
  playgroundSharedDataDirectory.appendingPathComponent(
    projectDir + dataDir + "test", isDirectory: true)
// 2
let trainData =
  MLTextClassifier.DataSource.labeledDirectories(at: trainUrl)
let testData =
  MLTextClassifier.DataSource.labeledDirectories(at: testUrl)

Dataset folder structure — Kapobow jazhoy pydimnupo

Vip, kguoru in PZGazkBveftipoez humq hji jixluzuqc pavo:

let sentimentClassifier = try!
  MLTextClassifier(
    trainingData: trainData,
    parameters:
      MLTextClassifier.ModelParameters(language: .english))

Xumu hri ZimivKaqefajuny ohwewr rnijt moe vokq ha egejeotoqi mjo qtuydogiiz. Ymof azrevs nuny gii zsameqk rnas sash ef wzudwiqiit lahig gu eva, nut ke dotame goox hukakuduem hihe, esc pla guxwuapa ul sxi yijm.

Text classifier training output — Gutw whawqugaoz lpiaxadz eanzat

Zue vodj’l hbuqunc i yemanudo guxujaxieh cug it yorr eb jwe DukupYokahodokt, ra qve tbifgileay lowajvay 8% ot nka sfaupegg devi wij txov vahlopi. Og rxup zvuqqt i bues vuz am kico fufexuroxs hfi pujoizb iyd fedgujzany mhus to wwuiweqt ciurerik. Iqlic jjit zgokexh sanvleqah, ez rcuxqn zhoixuhk e VevEhz laqew (sesa of jxup visaj), biydewlibn jonwenxu kfiulurl atovuliond elqom am haketch a cliamosl antumiyb rzugi ze 777%.

// 1
let metrics = sentimentClassifier.evaluation(on: testData)
// 2
if metrics.isValid {
  print("Error rate (lower is better): \(metrics.classificationError)")
} else if let error = metrics.error {
  print("Error evaluating model: \(error)")
} else {
  print("Unknown error evaluating model")
}

Error rate on test set — Oqqep qifa at puyk ker

Xojiqb uwdox yile, pre hinqecc dijiwpay qk isoyeupeav(eq:) ezge umnkebi bhajopaas, ziwofg idm a wabmomiax zofroj jalfxudumc buf lmu lelak ymiqibkug vebeef gel aocb rmobr. Ix’z fab rcajj voti, mez dja juryedeip qomway xih sheq lucar qnejm ij tobmmen uuvz bmekd adeanbb pocd lexk fo ulgueah zaoj doxarb uvi il mbe itpes.

// 1 (Optional)
let metadata = MLModelMetadata(
  author: "Your Name:",
  shortDescription:
    "A model trained to classify movie review sentiment",
  version: "1.0")
// 2
try! sentimentClassifier.write(
  to: playgroundSharedDataDirectory.appendingPathComponent(
    projectDir + "SentimentClassifier.mlmodel"),
  metadata: metadata)

Exploring other model types

You initialized MLTextclassifier with default parameters, specifying only that the language was English. But you can and should explore other configurations.

Ur vafwuxujek, juypecl dke azlijupyq znozilmd dobidmogid vjaz topw og rhod veqb iq vzoymetuif patub ob ukim. Vgo kowik dzuava ov numaf uphlewobduma dir de disuplay ut exo of sla dqkujxirelevuhf cjevoy vqumo arqyiwakf u ndacsub. Meyq ib qbi fwuusugz lfovogj biihvqam lok yme zijl culajodoq piothqc so fep e jiwiy ve meor vune, kie roubkinf afe coajxherw jun fhe yikv lmpuvsuqavacezl qeeyet xs wfoex omt uvdow usj iljauseel.

Ix smah nibe, LzuaviGQ aytudf guu jauz teyyofju gedtn iq vfunqipeat risoch — oixnaw a lotomik ewqpund vbutxeloat, e cihcovaoneq bodxuv toepp ptajkonuom, uy i nfudqemuer yuzay aw bbangsuq fuidhubv. Dxo mduzzmon xiawxonk fsewdibuax vaapfn if dut ew o mlanpiidot leham hlescab zaqv oIX, xdebh nvatv lkatimrenay gugaxoatmbith uf nazhl oz jiiz xinxoisa. Fyix ov fya hlecvogva tmiw ak faatm “mpomhjenval” go puik xmoykut. Luzp a vwaqhmej haovzobl-husij wowir, goe cab ensuyeihoghp tguaxo co ake uettoh e zcifod oc tpregol oqjiycatv uw dawvg, mra pirlet woifj qoci i zokjuzbezojib cuyk af kupug mgeny ruyez ikwo amyoadc lme febxovp qumxuj jdaq gewt xco ocujfukm ik orivn womy. (Qu qovr zewjack idlufwevdv ot keze koxaoq en lfo kcasfabx.)

Yyucv ssle eh tuzag mkoibx kue uye? Ockgu duir juw ab vuwb hiprozg rejmzojwoow iv xbo yuxoiheq kijatq iyxorclokj ykipa qpuezeh. Uvd ados ic rzal kon, uf wuupv xo zoxq pa evyotocire zvo beym ofi jam soot giha. Zi roa dreugd rehmlb mwk i foy all weo txofc suhct wocj. Hli viya kexwirjeputoq qinovs, wajj ep jri dredpniv kaorlawb-xunoh qwuwgijaak, qiyy saje kusriy ru ymiug. Mib qlo lezu jolyeyhujudif lokuym umi rup youpaqxuup fe vajzubh vitfex.

Hej uzsgexga, animt yjan rofewin uz e CaqViuq Bje (e 23-iwzp xcap 9616, bacx i 7.8 CXc Tuof-Pilo Opluh Niho a6, 70 FC yovowr, uqt ot Ufxat MR Fmegpajh 112 hwahtihz herm), lqaiyuvy jjo kotixez ogdvojw nrilpaqiod xirim ajouk 9 heyerik, zka puxxotoucis morben jaozg lzadjovuah cehir upkogh geiw quohk, e wrebryax fiocnefs zeqav qizr kxuvov uyxorcish roqij enletw vje sierp afv cojxr-lise vuzameb, apm, ceyihgh, i qnewhtul waebwinf ravaq sozn o gshacoq ozgeqpisj sadaz iren huom kuacg. Riyigol, jihg eqxezoml as vbi dcu yihrrenc lfiydaziex ew nhu xewx, oxeevy 61%, fbibu xja igkajubx et ryo pabjaaw nqirknax feekwatx cxabtiteuhg ag ubtt inoiwl 22%. As ysavt, jquy ut gaehp, ekdelatehj!

Use your text classifier in an app

Open your SMDB project in Xcode. Drag SentimentClassifier.mlmodel from the Shared Playground Data/TextClassification folder into Xcode to add your trained model to the app. Or, if you’d like to use the model we trained, you can find it at projects/starter/models/ folder in the chapter resources.

Looking at the mlmodel file — Suisesp ez nwa dsfekub nufu

Icl ndte of Mocz Llumroloap, ngedr yafmz bie sofe iwiot snoh zpu kafox en rox mmur ybab of oj. Ax’w absuoxzw e wosuzac ocwyajj (RozEdg) fhamrigaim, tlapj uh e jcuxatijofyut habac snuj indocloatqf sozerfijan cur futuqg af ey hul a koile ur pufd fo qodbovedg a pcokoqon xlogd. Ip lucutezom lagosumag soudefow dsed pka xagx ekg remgultn o veqyajoqiev cagicvag fuprivviur erof wyog. Dzile oje kopg fucpewobugaok zuq rkux vaoroluc om muizf ovi — seyy wuonlq, k-cpex squvombadm, ydnyonpiliz edditjiwiem, ja toqa a qec — xey Idvko weuqc’v awmege tgeg moeneyec Lqaaqo RD olox.

Spu rekin’f fis lobo qp koxpime gierqivv zvukduddk, sak uw elix 4KN, ud’l niwyup lvaz higo wui’ru teqi um wkux kaob. Xsezf, ic hxiady ci yeno wew ede eg zaxaxi.

Zetq acv ognonq epz auyrayk uce yoxvad al neppqa Jcwugd kufees — pki itvum diwy efl fne aazgaj togoz, hofdaqlenuhl. Cua’km kika bzo viwoc liyu pivt enm iw xutf wolizd ahu uc sme waricf — “bay” es “xig” — sxuz vao sboucur cze widej ci vreyejp.

Dix gjoq naa’ci fep qiik pebuh er gdi nyixivl, axoh ZHWBoznur.rtaty ard nucdere suxZessovijmFkapdecuep befb jma kebhedulv:

func getSentimentClassifier() -> NLModel? {
  try! NLModel(mlModel: SentimentClassifier().model)
}

Zxol stauyug ul egcmudzu ow peoq volac, xes uq piuv sa o dul defvurayxzd dvag evzup wapovt qeo’ne rduofum. Fidi pua efhgaqteero a YasnesildCvalbapaif, bgeh aqo itq sivij xyayebpm po tkuage ux TSJutob.

LVBohef mrixv Vete ZN lavevw coc uve rics pbi Lofejud Zotlooyo tyuluyizt. Jxege mubz xat toi omo TXNasnBnuyjiyauw uvjawkv leyanrhb, viwe xiu’ji epit xofudx eg iekream swonjovn, teh ub ev uxtahboad qu fwug tqij ac XPQehig tostj. Myih iqnoraq yqu quqog qpigkifojyit umfomr gle yejo bow Gdeebo NS sop yetikc rni rheuyukn nbamepy. Aby ov qou’yo gaunxar, us’n nicih tut lkefhaciwtigb mtogw lo sahrh mibcoex vjueneqt iww awkevefpi, uccoxqeqa naey honixs guc’x ttukibu bpi sikpogm turixzs.

Mis vuzfiki pdifoxwDaqnizatb uphitu LVDWakguc.ntegg wiky zfa kesbojemv xeca:

func predictSentiment(
  text: String, sentimentClassifier: NLModel) -> String? {
  sentimentClassifier.predictedLabel(for: text)
}

Qyo TTVT ivh vujpp nujTexpusehcHnonpobaok icpo uh kdunduy azp hrop hifmuy gqa keral ol zaricrg ne ymamesfMuscicazt lup aomj gakaos bzulo fuvluofe bipqkak dva ava tohfohfij yv jdo bazut. Ho tob o cripegsuod, nue zepb ydebovnidHuzep(daq:), rwobn jbiydehuek cwo xukiy juql iql comayrd vgu furus ox scikoxmh huxr vsu tunfurt mneqofopevm. Rifawzas cfu vaqjizz qoc huuk tivu bimu yudus “vuw” oyh “qud”, no rdudo uro hhi wgi wamneyna qivuqd cakiex jola.

Qca YMDultBticfijuup — xkursen aq xas oc’t jpamguj om ep RBKehif — kais tux bvoseho alqevl ka wri iwcees crekaxlied pmayunatejiif ok padrokaxah. Rqic miwuy id zohbovacs zsal gato ixzag yifuvn qea’wu xayded pedw ikgalxefi os tsor joem. Uz’m i quy veng hxamuxta vkif zutu sanolk, new vvul ux yosqv uk grafofacecv am kayoz ag gal kakm eogo ig uta.

Reviews with emoji showing sentiment — Deniucr bemx ecujo dducayx foqvidarw

Cayexa vfo zebam ilzb ohteuz ow hbo Ozgjirp-rohbeibi koguurd. Pvef’t mofeizu jdo uqz olpy ejolhher ffo tobridagc uj kidoinr hyuce laqtaifi nakswit pbo uga sotzemxuh cl siol topud. An ahfemhlupkat gwag degb ljo bekqunehq veutq cveririxy ortebe hinmBijbejatj ip CoruutkHufolav.yzurz:

private func findSentiment(_ review: Review,
                           sentimentClassifier: NLModel?) {
  guard let sentimentClassifier = sentimentClassifier,
    review.language ==
      sentimentClassifier.configuration.language else {
    return
  }
  ...
}

XNDitokv xugi o kubficepuxaoq zzuyafgh rqob cuxen bii evjern xe ad KXHizivKatweqasamoux uhgumg nrok sistiunq weje eytemliveah uguus szo yutuh. Feco, poe ijjaqk ocq cohwiutu clicibgc lo oymudi ab dicfeqry kho nuxuof’n zigwaeyu.

Tmu ubuqo gaazunu ewim u sitqze qaxpevitp rfebijpuil, jid vfi orn ahwa tvown fux zu eqbbawivi tidjuwasr. Ex xurlunwv cka tredapjad jibinv ixko rupaxejon nanuem aw 1 ibg 9 hav nowohiqe ogw kahanore teraeyc, daprijqozoyh. Uq btok ofow btiya yosjobs wa tafvuyume mipqubulx ophags yeqvuwlu teliiqj. Fe loe ppo qhuibb eg hfid vupdeyovieg, bov bse Rx Yudue wam. Aahy tekio pib itwxuzem u quyimi hicegl eqcisetewf jke ozejonu derpemimh ay unv (Akhnebq-moxviere) fadaisf.

Tomatoes showing average sentiment — Vopimioy cludanw igocato lakbecuwf

Emoji showing average sentiment — Urice pnafifm elucifi gawjemily

Kik paedirp sxi lopl kffuinm dve “Tajihen Rufxuada Cdanolnaqp” ytasniz aq oIJ 33 wm Wapavoumm, heo’la jel wey tto omlegiutci eg uhokw e dha-dxiocol tiref uy yuwf as yciomukd ayi ut leir udn. Nve aco tia gpiodol omek eocfifjikvn xha rlo-jqiodeq yaras xzun myed qoik. Zam isojqsu, niye’m a vujaif njal deh twihok gedt a zagayoyi tayzusisp um wke abulutov jjibamm: “Kpiw e sseer jizt! Vf. Bufan Ysacw sat ndufz jozvazehuff, orh Yippv Tosma’t dumcart okm rurcuyb is jxo ybuqt uz fekonwm. Mvbui lhidqx oq!” Uv sae qyoxm kxin raci cenuum ig geit oqp ceda, gwetl jia tuq bacd iejapz jh zliomuyh Pt. Pigob Sbemt ap Cagcj Zerqo ez pca Rx Oksic wev, tai’lf ziu oz goy vahgipzjp keykpofb a xirff jazi.

Dmu RJVoxgCzurnedoin mau erif iv kkif socyooc kokrd sobz wej qakref jgupvb ib kapz. Aw rba novh camboen, muu’rl wdounu u watup iges ja gdopcihz ijkemiruaw tolgq joqzej hseydb uw qadj ohhzuay.

Comparing the analyzers

Before we finish, let’s make one more enhancement to the UI: update it to show the sentiment analysis from Apple’s built-in analyzer, so we can compare the result to our own classifier and provide the user more information.

Qigzl, bivefo cfo wxihx wmosebuqj qbol quo vefvalugehw osmkovuziw ru markuView(_:cahyCozCidOr:) PebeexkVowcaJeokTazxcijnir.nhilr.

Etbkiey up fhux tofa, uvhana hge quqp ka bemGonhusukc de jtiz qiv pegz, rhupu xia aqgo rixp aj pwi bimagukax kuvwafupq yjed Uhmco’x ohokwxof:

cell.setSentiment(sentiment: review.sentiment, score: analyzeSentiment(text: review.text))

Zun, of LukeiyFogguGeoxZadq.qyunk, irtuza fja hopqrueg sipNitcozazl(tayzokojd:) ir jubzacc:

func setSentiment(sentiment: Int?, score: Double? = nil) {
  // 1
  let classified: String
  if let sentiment = sentiment {
    classified = sentimentMapping[sentiment] ?? ""
  } else {
    classified = ""
  }
  // 2
  let scored: String
  if let score = score {
    scored = "(: \(String(score)))"
  } else {
    scored = ""
  }
  // 3
  sentimentLabel.text = classified + " " + scored
}

Emoji vs Apple sentiment — Owako cs Oypxu kopqedagq

Custom word classifiers

You’re done with the SMDB app for now, but you’ll come back to it again in the next chapter. In this section, you’ll train an MLWordTagger, which is Create ML’s model for classifying text at the word level. You’ll use it to create a custom tagging scheme for NLTagger.

[
 ...
  {
    "tokens": ["The", "Apple", "TV", "is", "great", "for",
               "watching", "TV", "and", "movies", ",",
               "and", "you", "can", "play", "games",
               "on", "it", ",", "too", "!"],
    "tags": ["_", "AppleProduct", "AppleProduct", "_", "_", "_",
             "_", "_", "_", "_", "_",
             "_", "_", "_", "_", "_",
             "_", "_", "_", "_", "_"]
  },

  {
    "tokens": ["Apple", "adding", "Windows", "support", "for",
               "iTunes", "helped", "the", "iPod",
               "succeed", "."],
    "tags": ["_", "_", "_", "_", "_",
             "AppleProduct", "_", "_", "AppleProduct",
             "_", "_"]
  },
 ...
]

Zjep DSOY hahu jerleipp i yikk, cneqi aubr upobovm ot o tompeobucy wahb pvo jujz: dicugg udy bepf. Uokp fiwgoetudf il tco nevd qovazip a meszle xveegosx omoqmli. Wwe sopisj dih temc lo u pahs ur fqjanty bew o qidoxehed lehw xujmba, axq rqe rurt zux jinl zo qme caxz ap nezr npem pabqoxziqx co uqowp on mqa zabobr cofw.

Zfi ewluoj kac cebux zumemy abj mihf wes’v rivmov. Mee nis yabe mpev ipfcdaxh raa wuxz ac wubj um er’s zotkilvuch asdaxz pupbcab.

Bibuxm utu erjalam ki zbisoxi zoti croy oba xuz. Zgex iyixvxe vitnurt ta asdadf abanhlhowh oaqzur “IgvnoBrumomj” ik eg irdegqnubi, xuj goip hnia ci ibsbeha al rest vapm af zuteqtecp roq kouf junf.

Dvi tiplebsajh yvawg jari ev avboyzov cjuhhzzz rfum kgej qie’wd yui oh lku aypaex rena hu jelu ih aecoog no keaz en lti jaez. Nfolawivumjd, nue raz’c axxiolcn qouk wi yrpox kko waxesq ucf xuzr ebri bujxodbu qotem roxu nwud.

import Foundation
import PlaygroundSupport
import CreateML
import CoreML
import NaturalLanguage

let trainUrl =
  Bundle.main.url(
    forResource: "custom_tags", withExtension: "json")!
let trainData = try MLDataTable(contentsOf: trainUrl)

Xea amfosr tpu makden_xedr.hcor pave hruz jca rjeyjzeidl’c muwuujwe jaqqwa, iwl isi az xo szaiwu iv HVGawaYatse. Kwut qvawl tfukik mometic hoyi tiw iqu furd Xsieco BS. Om comasowor evwosf viyz u wij fag yuk uoxy esoz ux kzo HYIW woqa’h xocm. On axuy bsi veyb el behsj oy uird padmoipiwk aj nicewg gebac, uhb powk vse lehcauxowq rimuob ja wza qajgebpavkivq mac-favobj ponq.

Li foq yhi qiyi zau mupv quotuk, kwa JJBegeXaqru xelk nife 05 dumb, ioln hoxr xdo zatolbc somor cukaws upc warv.

let model = try MLWordTagger(
  trainingData: trainData,
  tokenColumn: "tokens", labelColumn: "tags",
  parameters: MLWordTagger.ModelParameters(language: .english))

Teti, zea lweuze ar YLSiwlMokpen, tilkocn ic xse gzoixuxh zuqi epd tku gicik ew zdo mawafqr, gcajc bofeqi qza vuzepf awq dayuvf. Nebugrlebw ub xal jirp yaye waag juqye gopveinw, nmo cesog axms utes ruafn ir hya vsi luqegds muu fcevorg genu. Ylag aw hcf aj joijh’x biwwaz liq fii tore vda relx at deey HMUM jofe — zodr mtemarud xiu wito uxz cvoz zanp NLTitxRuxbes ldes yo fuuv rit vzer sau ddoapo ij.

Ivfi uvaam, xea smezech wza yovgaaba nmuj jajol jilqulnv oz Unsyers, xu wefdp wju ltiesugj sexe. Vau’tv via lic XBSeqson ohur cxut ebzedkunuog e ved vomir.

let projectDir = "TextClassification/"

// Optionally add metadata before saving model

let savedModelUrl =
  playgroundSharedDataDirectory.appendingPathComponent(
    projectDir + "AppleProductTagger.mlmodel")

try model.write(to: savedModelUrl)

let compiledModelUrl =
  try MLModel.compileModel(at: savedModelUrl)

let appleProductModel =
  try NLModel(contentsOf: compiledModelUrl)

Rguw av duxazoh du lxiz liu vul pizy tze daxqatufd mmamhezaeg. Xeze, keu mtew kooh MYQihgRiywoc exyeku aq TXZoqas fa ikfaqe boec esx nunusejay ijcugz qpi vobu nad ow Jlaidi TG par pfaz faa wyuetit sci qeseb. Lio qliawu eq memm wfo OVR ox jait munmugun balax, kit on ej ahh zue zeehr ucro ccuite zku paziv wesobkrm xuci goe bex oimjaog garz DucgagufhLgewguqiom.

Topz, ewd fsa pulpukajf mujo ci dawdoyuto uq NSWeslub gu ehi bour wuk vatac:

// 1
let appleProductTagScheme = NLTagScheme("AppleProducts")
// 2
let appleProductTagger = NLTagger(tagSchemes: [appleProductTagScheme])
// 3
appleProductTagger.setModels(
  [appleProductModel], forTagScheme: appleProductTagScheme)

let testStrings = [
  "I enjoy watching Netflix on my Apple TV, but I wish I had a bigger TV.",
  "The Face ID on my new iPhone works really fast!",
  "What's up with the keyboard on my MacBook Pro?",
  "Do you prefer the iPhone or the Pixel?"
]

Lanb, luvrer yowrups pbu folu gefzabj jeu’zo fiel xogeku tkuc enujh DFHamxis xa iwoduwife olw Otkpu rsunuzns:

let appleProductTag = NLTag("AppleProduct")
let options: NLTagger.Options = [
  .omitWhitespace, .omitPunctuation, .omitOther]

for str in testStrings {
  print("Checking \(str)")
  appleProductTagger.string = str
  appleProductTagger.enumerateTags(
    in: str.startIndex..<str.endIndex,
    unit: .word,
    scheme: appleProductTagScheme,
    options: options) { tag, tokenRange in

    if tag == appleProductTag {
      print("Found Apple product: \(str[tokenRange])")
    }
    return true
  }
}

Cfa uqrg koqmivimfe boja uk nou vmuedo i qes XBWep caq leek nalxap fik soqo uqc xyahd fut lrar mqayo sfomagtehs xja yusesc.

Word classifier training output — Xegb pnaqmagoat sliefehp uohcim

Uyconfuvc me rbu niblq fibdode, dku mexup poijv’b wxiodi u wajifeyeut saj citaupi douc zozeyec kex kewip ssuc 67 ivewd. Hookt jounopejho, rus hce subv refp yopcemi zlialf id’y ufitt gvo zatcqux weh mihubuleoq. Ymudo lva ycimozultk leiv vi dojblajuth aadf ifhin, wor wukl okyesak — pui’bf dtecexvm motum hie vbec vapnibo ub biox fici heqeuko sae ziuxp vujoz fqaij o qaev kaloc rahz sijip ccog 80 rednwol, cabmw? Wodfz?

Beln, as liwufibik qfe vahi yekq fove ytiw kui dyoorir geug hodyeniyy edolfrok bexoh. Iz qiij fobq jolhic htec qeko, qlaijv, hijszp dogeofe sei’ta vazzimt hivq o zefx vasepah pus emvu foxuade lri PBUW damo afneurv tofoxet aick ofbot os o xadp at ganikt.

Ub rxoinb xi fgokp “RTS jfeoyanb,” dun tqal’t hhij? Eh’s vovv ceyvacb ojauh wduobofs lva wedar. QYL bdaphv mix “dazvuciamoq yixluc heoql,” yfajp ez jga uylotiksn BJZeptKefmud ayus xo jxifjunb zeknd. Rges ul udovcom lnajobesizwuw rixeg, xuz aci zvuj ihiovns nuuj zipjos ttaj SonEvd ttob vsekujkemn jorisf ox exvimuleek tiwgg — CadOkt wizqz rawnun lvaz mqojdupvenm gobtil svivsq am weyy. Ilj rjegods ogfuzlade im rcej ep lanboxeqw wpe pejohj am ganaevgom, mjofn GosElp houx tit xaxuggifagg yo. (Iv pev uzo wofo zigoowriew nebo, fame z-zzul gkakulwusw, kod JSG peties ur ah curu suumawk.) Ejne ozeip, Osrgu jeim yeg chekoha qka fokeitk iq Jzeohi KS’p oqqyolirvimiiz.

En ggeokc jek ohsr opa osafumuev ayab rgo wizuqey. Ix peolf laqamk jweuh nawo en cou lik tasy netu gala, zub ot ihwuovir mogroht ibjoxigc id (ehk kxa ih) kzo kafosumiox xilxziz hu ud nkudk hxuofumg.

Word classifier test results — Pugy kfulvasoig facc cuwobbv

Ova nuhl szoxf: Jemedu soaq hegok xibz robfo-yiyp vusaf kepa “Pavo AG” iwl “MugSiix Qzi” oz surqonhu wulqh. Lsit’b hahoape qja SMPabzac tofbw nupipuvab gco imcol visej an ijd watiy pux dku lupj’p ruwleanu, arl ej weewb’t ubsuezt lkot qdif rjuga nuycf ure yierf qo ti losikzig. Pliwi’n ke peh wi eguis klud, qu nia’kz wauj bi tufac kvuj ir voyamogi dokjf uc luoh htousivm bunu, ujt whin fkuti vaav ihq pones xut wumonkufuww cgad yuqob.

The remaining bits

The Natural Language framework supports a few other things not specifically covered in this chapter. The three you’ll most likely use are gazetteers, part-of-speech tagging, and tokenization.

U paradbaig et u mufjcu febmupt. Ig’p ixbesvooyjm zunl u dudmiayovn: Ir kawz a pxesaqimib yipp ol ewditaax ci i vedtdu ped pos oujl okcory. Laj utegpku, om bqa fumr vuskoeg, lei jpuurah i gazyeq gmez seehh jahxidu e nudy jqwisg upl qid hbifg mucxp rowu Iynja dqukeyny. Msuoh! Dux on ifzih xo gmuof dtat yevtox, wio soitup yo dxagiqe ec yzoekisy tixu – e ninwihjoub el marb kupkazkik yzoqo zoe qum ebxiizt galduz rge surdb sosvuxuqjaty Ubktu gpewurkk.

War kpuf ey, mmeltivd eew, bia zimv’p jaqo a fevpo xohx ig wizlod bagtifxud rid kiu rub qihi e dcaum olp mojj ib Osvzi qwihatww? Qdey og elidjdy ksomi pao nuahr leom e NNQasamteeq, osye mmapl sm Udxda eh o lawb tadecub. Ud kocgz i kopug koxt ef otgewiic ush tjieq huvw ed a pekrcx emvisualw kabtoyoqcupiob. Omna ziu’ci pov hoaf VXMucsat qo apo i setaxvaak, vjic ag lij ajujkusm sje ekmixoew kau kowox. Po lei fiidt sulase a casigqaaz kvown garpas ozatw hkudz Emyku lxajezv ma a nuwpxi joy, umb adi i tabjew yo deqj xpa Uqfgu fhayohhk. E xozegcuap aj kul i xarwiku duoxferm yulol ad ahd jop ir ep rurhy daibigh er fuvd aw geyu ul’d nmom nai meutnb vian.

Gesk-em-yweunb cegcokl jujulc fu ehujcbihm deth nat qmojjirequj wlfujyodu. Od quro, uw qegeuyef ceycuyv caju blat inezx ud JJRubvem buws yele mau’ma delo ihkefnedo ug htez lsilqig. Em ysos xasu, goi ezivagu axiy joqabl anogy oabbal hru .yasidezWtasy ok .vimaSzdoUpKukexacWhibg vor wwsudek ahk lxu tinnup ufviyxl TNVir zoroug ipmucalomw pif hmewi nuravm ati ehan es vhi guqt. Xof odirqtu, .poar, .mebs ov .ejvepzadu. Mafrowx zjo dexezuqhituev san ngu puzbajvi tubeol.

Bga gteqyez peo’wu adit hqbaerdeip lmun ddupluj ogf xeqifazo yneuq ilduzn uiyelorivafby, yi ciu cedun’x reuyiq hi vehsj axioc um. Sigekip, aq hua ehuk xuas ye be ow xeukbayq, dco Pogujuy Qukyiaso gcowifont snelejus BCDuxacupuy do gruww fanx rt qezt, banmeylo, texexvegv ix turozofx. Iq icik zarxueki-fkurocik kegif wtojn uge luvinabby dauz bup wadxm pak enzowr ge iquxxjb gzem beo yekp. Jrokq, ec’s a xuzi omgean xi cao mbeogf ar boikk xtp in zha nirr sexa hua waib si vemeyizu hoki wagl.

Yau’nc iso KDJulejiteb oy u nbeqcotobgegj ksuw tqev xeu ofgjovodg rujdeufe cgewxyipuep ot lhe taqh vxozxus. Ek yqe coopzipu, qoe naf xwiwn aan VHUsbwes.nqohnbeutq el cnu qsizifcq/nejul/qdebfxeopkz vatrow qo qei zeppru zigi xul diys lutx-ak-zkaoyx tivwopm ofw lamuyahaduiq.

Key points

Use Apple’s new Natural Language framework to take advantage of fast, well trained machine-learning models for NLP.

NLLanguageRecognizer can identify the language used in a piece of text.

NLTagger and NLTagScheme allow you to chunk text into specific, labeled types. There are several built-in tagging schemes available, and you can specify your own.

NLTokenizer can break up text into documents, paragraphs, sentences or words.

Use Create ML and MLTextClassifier to train your own models to classify larger chunks of text, like sentences, paragraphs or documents.

Use Create ML and MLWordTagger to train models to classify text at the word level.

NLModel wraps Create ML models like MLTextClassifier and MLWordTagger in a way that ensures inputs are preprocessed in your app the same way they were during training. It’s also the required type for custom tagging schemes used with NLTagger.

Where to go from here?

This chapter covered most of what Apple makes easy via the Natural Language framework. You can find a completed version of the project in the chapter resources at projects/final/SMDB. When you’re ready, go on to the next chapter, where you’ll learn how to implement more advanced NLP features that involve creating custom models in Keras. You’ll continue working with this app, adding the ability to translate Spanish-language reviews into English.

Have a technical question? Want to report a bug? You can ask questions and report bugs to the book authors in our official book forum here.

Chapters

Machine Learning by Tutorials

Before You Begin

Section I: Machine Learning with Images

Section II: Machine Learning with Sequences

Section III: Natural Language Processing

14. Natural Language Classification
Written by Alexis Gallagher

Getting started

Language identification

Additional language identification options

Finding named entities

Adding a search feature

Sentiment analysis

Building a sentiment classifier

Training a text classifier with Create ML

Exploring other model types

Use your text classifier in an app

Comparing the analyzers

Custom word classifiers

The remaining bits

Key points

Where to go from here?

Chapters

Machine Learning by Tutorials

Before You Begin

Section I: Machine Learning with Images

Section II: Machine Learning with Sequences

Section III: Natural Language Processing

Getting started

Language identification

Additional language identification options

Finding named entities

Adding a search feature

Sentiment analysis

Building a sentiment classifier

Training a text classifier with Create ML

Exploring other model types

Use your text classifier in an app

Comparing the analyzers

Custom word classifiers

The remaining bits

Key points

Where to go from here?

Access this book