Services

Cloud Enablement Data & AI Digitalization End-to-End Digital Marketing SaaS

Industries

Products

Retail Healthcare Hospitality Insurance Productivity Technology Marketing

Resources

Company

Approach

Careers

Blog Business Referral

Cloud Enablement Cloud Consulting Cloud-Native Apps Cloud Migration Strategies Cloud Migration Services Cloud Monitoring Cloud Security Posture AWS Cloud Cost Optimization Azure GCP App Engine Private Cloud

Data & AI Overview Generative AI Development Data Science Large Language Models Data Engineering Artificial Intelligence Data Management Machine Learning Data Storage Computer Vision Data Visualization Video Analytics

Digitalization Mobility Extended Reality Web Development Internet of Things Blockchain CRM RTLS RPA E-learning Portals E-commerce Sites Intelligent Document Processing Product Information Management Enterprise Asset Management Digital Experience Platform Customer Data
Platform Enterprise Resource Planning

End-to-End Site Reliability Engineering UX Design Microservice Architecture QA Automation DevOps Performance Monitoring Cybersecurity Frontend Monitoring API Management Compliance Consulting

Digital Marketing Overview Marketing Automation Visualization Analytics Programmatic Advertising Paid Advertising SEO Email Marketing Content Marketing Social Media

SaaS Salesforce SharePoint Oracle HCM ServiceNow G Suite Microsoft Solutions Freshworks

Retail SlashQDigital queue management ContextIQRecommendation engine

Healthcare Patient Transporter ManagementRTLS for intra hospital transfers

Hospitality TalQCall accounting system

Insurance RehashLow-code insurance platform

Productivity AsQAI employee assistant Notification AppNotification builder KeverProject management tool QuickPicksSalesforce widget

Technology Open Source WorksShared with the community IIoT PlatformIoT solutions for industries

Marketing PartnerFrontAffiliate marketing platform

Artificial Intelligence

NLP Libraries for Malayalam Sentence Tokenization: An Exploratory Study

By Sabique Ahammed, October 28, 2020 October 30, 2020

Imagine that you are working on machine translation or a similar Natural Language Processing (NLP) problem. Can you process the corpus as a whole? No. You will have to break it into sentences first and then into words. This process of splitting input corpus into smaller subunits is known as tokenization. The resulting units are tokens. For instance, when paragraphs are split into sentences, each sentence is a token. This is a fairly straightforward process in English but not so in Malayalam (and some other Indic languages).